내 컴퓨터에서 GPT 수준의 AI를 직접 돌릴 수 있다고 했을 때, 솔직히 처음엔 반신반의했다. "그게 된다고? 내 PC가 서버도 아니고." 그런데 실제로 해봤더니 생각보다 훨씬 쓸 만했다. 물론 클라우드 AI와 완전히 다른 경험이었다.
이 글은 몇 달간 로컬 LLM을 실제로 굴려본 사람의 솔직한 비교다. 스펙 자랑이 아니라, 어떤 상황에서 어떤 선택이 맞는지를 정리했다.
로컬 LLM이 뭔데요? 용어부터 정리
**LLM(Large Language Model)**은 ChatGPT나 Claude 같은 AI의 핵심 엔진이다. 클라우드 AI는 이 엔진이 Anthropic이나 OpenAI의 서버에서 돌아가고, 내 질문은 인터넷을 통해 그 서버까지 갔다가 답변을 받아온다. 로컬 LLM은 이 엔진 자체를 내 컴퓨터에 설치해서 인터넷 없이 돌리는 방식이다.
비유하자면, 클라우드 AI는 전화로 전문가에게 물어보는 것이고, 로컬 LLM은 그 전문가를 내 방에 데려다놓는 것이다. 단, 데려올 수 있는 전문가의 수준은 내 방 크기(하드웨어)에 달려 있다.
지금 가장 많이 쓰는 도구는 두 가지다.
두 다 무료고, 오픈소스 모델을 Hugging Face에서 받아서 쓴다.

준비물: 내 컴퓨터가 버텨줄까?
여기서 많은 분들이 포기한다. "GPU 없으면 안 되는 거 아냐?" 맞기도 하고 틀리기도 하다.
현실적인 최소 스펙
| 구분 | 최소 | 권장 | 고성능 |
|---|---|---|---|
| RAM | 8GB | 16GB | 32GB 이상 |
| GPU VRAM | 없어도 됨 (느림) | 8GB | 16GB 이상 |
| 저장공간 | 10GB | 30GB | 100GB 이상 |
| CPU | 최신 아무거나 | 8코어 이상 | — |
핵심은 RAM이다. GPU가 없어도 CPU와 RAM만으로도 돌아간다. 다만 속도가 문제다.
내가 테스트해본 환경은 M3 Pro MacBook (18GB 통합 메모리)이었다. Apple Silicon은 GPU와 RAM을 공유하는 구조라 사실상 18GB VRAM처럼 쓸 수 있다. 이 환경에서 Mistral 7B 모델이 초당 50~60 토큰 속도로 돌았다. 읽는 속도보다 빨랐다.
반면 Windows 데스크탑(RTX 3060 12GB)에서는 같은 모델이 초당 8090 토큰이었다. 그리고 RAM 16GB짜리 인텔 노트북에서 CPU만으로 돌렸더니 초당 58 토큰. 이건 솔직히 괴로웠다.

어떤 모델을 고를까?
모델 크기는 보통 파라미터 수로 표시한다. 7B, 13B, 70B 이런 식으로. B는 billion(10억).
- 7B 이하: 16GB RAM이 없어도 돌아감. 속도 빠름. 품질은 GPT-3.5급 정도.
- 13B~30B: 16GB~24GB 필요. 속도와 품질의 균형이 가장 좋은 구간.
- 70B 이상: 48GB 이상 필요. 품질은 GPT-4에 근접하지만 진입장벽 높음.
처음 시작한다면 llama3.2:3b나 mistral:7b부터. Ollama 기준으로 ollama run mistral 명령어 하나면 다운로드부터 실행까지 끝난다.
속도 비교: 생각보다 괜찮다, 단 조건이 있다
클라우드 AI가 느린 경우가 있다. 서버 혼잡할 때, 특히 ChatGPT 무료 플랜이나 피크 시간대에. 이럴 때 로컬 LLM은 확실히 빠르다. 서버 응답 대기 시간 자체가 없으니까.
내가 측정한 체감 속도 비교 (7B 모델 기준):
| 첫 응답까지 (latency) | 생성 속도 | |
|---|---|---|
| ChatGPT Plus | 0.5~2초 | 매우 빠름 |
| Claude (Sonnet) | 0.5~1.5초 | 빠름 |
| 로컬 7B (M3 Pro) | 즉시 | ChatGPT와 비슷하거나 더 빠름 |
| 로컬 7B (CPU 전용) | 즉시 | 매우 느림 |
첫 응답까지 대기 시간이 거의 없다는 게 의외로 쾌적했다. 스트리밍 방식으로 글자가 바로 찍히기 시작하니까 기다리는 느낌이 덜했다.
단, 이건 충분한 하드웨어가 있을 때 얘기다. CPU만으로 돌리면 한 문장 나오는 데 20초씩 걸린다.
품질 비교: 솔직하게 말하면
이게 핵심이다. 품질 면에서 로컬 LLM은 아직 클라우드 최신 모델을 못 따라간다.
로컬 LLM이 잘하는 것:
- 간단한 요약, 교정, 번역
- 코딩 (특히 Codestral, DeepSeek-Coder 같은 코딩 특화 모델)
- 짧은 질문-답변
- 형식 변환 (JSON으로 바꿔줘, 표로 정리해줘)
클라우드 AI가 압도적으로 나은 것:
- 복잡한 추론과 논리 연결
- 최신 정보 검색 (로컬은 학습 시점 이후 정보 없음)
- 긴 문서 분석 (컨텍스트 윈도우가 작은 모델이 많음)
- 창의적인 글쓰기의 일관성
의외로 코딩 작업은 꽤 좋았다. Ollama에서 deepseek-coder:6.7b를 돌렸을 때 간단한 Python 스크립트나 정규식 패턴 같은 건 Claude나 GPT-4와 비교해서 크게 부족하지 않았다. 오히려 빠르게 여러 번 수정 요청하는 용도로는 더 편했다.
진짜 차이는 프라이버시
이게 사실 가장 중요한 부분이다.
클라우드 AI에 업무 자료를 붙여넣을 때 항상 찜찜함이 있다. 직접 경험해봤다. 계약서 초안, 내부 기획안, 고객 데이터가 섞인 스프레드시트 — 이런 걸 ChatGPT에 던질 때 "이게 학습 데이터로 쓰이면 어떡하지?"라는 생각이 스친다.
각 서비스의 공식 입장:
- OpenAI: API 사용자 데이터는 학습에 사용 안 함, 일반 ChatGPT는 설정에 따라 다름
- Anthropic: 학습 사용 여부를 명확히 opt-out 가능
- 로컬 LLM: 데이터가 인터넷에 나가지 않음. 100% 로컬.
로컬 LLM은 오프라인에서도 돌아간다. 인터넷 연결 자체가 필요 없다. 비행기 안에서도, VPN이 막힌 환경에서도, 보안 정책상 외부 서비스를 못 쓰는 기업 환경에서도 쓸 수 있다.
의료 기록, 법률 문서, 사내 코드베이스처럼 외부로 나가면 안 되는 자료를 다룬다면 로컬 LLM은 선택이 아니라 필수가 된다.
비용 계산: 장기적으로 어느 쪽이 유리할까?
클라우드 AI 비용:
- ChatGPT Plus: 월 $20
- Claude Pro: 월 $20
- API로 직접 쓰면 사용량에 따라 달라짐
로컬 LLM 비용:
- 소프트웨어: 0원 (Ollama, LM Studio 무료)
- 모델 파일: 0원 (오픈소스 무료)
- 전기비: GPU 돌리면 시간당 50~100원 수준
이미 고사양 PC가 있다면 로컬 LLM은 사실상 무료다. 추가 하드웨어 투자 없이 지금 당장 시작할 수 있다.
반면 하드웨어를 새로 사야 한다면 계산이 복잡해진다. RTX 4070 (VRAM 12GB) 신품이 60만원 내외다. ChatGPT Plus로 환산하면 30개월치. 2년 반 이상 꾸준히 쓸 자신이 있으면 하드웨어 투자가 나을 수도 있다.
어떤 상황에서 무엇을 쓸까

로컬 LLM이 맞는 상황:
- 민감한 데이터를 다루는 업무 (의료, 법률, 금융, 사내 코드)
- 인터넷이 없거나 불안정한 환경
- 하루에 수십~수백 번 AI를 반복 호출하는 자동화 파이프라인
- 특정 작업에 맞게 모델을 파인튜닝하고 싶을 때
- 빠른 응답이 중요한 실시간 앱 개발
클라우드 AI가 맞는 상황:
- 복잡한 추론이 필요한 일회성 질문
- 최신 정보가 필요한 리서치
- 멀티모달 (이미지 인식, 음성 변환 등)
- 고사양 PC가 없는데 고품질 답변이 필요할 때
- 빠르게 프로토타이핑할 때
솔직히 지금 나는 두 개를 병행한다. 일상적인 코드 질문이나 문서 교정은 로컬에서, 복잡한 기획이나 분석 작업은 Claude나 GPT-4로. 목적에 따라 도구를 고르는 것이지 둘 중 하나만 써야 하는 싸움이 아니다.
지금 바로 시작하는 방법 (5분이면 됩니다)
Ollama 기준으로 설명한다. Mac, Windows, Linux 모두 지원한다.
1단계: ollama.com에서 설치 파일 다운로드 및 설치
2단계: 터미널 열고:
ollama run llama3.2
3단계: 다운로드 완료되면 그 자리에서 바로 대화 시작
끝이다. 정말 이게 전부다. 처음 했을 때 "이게 진짜 내 컴퓨터에서 돌아가는 거야?" 싶었다.
GUI가 더 편하다면 LM Studio를 설치하면 ChatGPT랑 비슷한 인터페이스로 쓸 수 있다. 모델 검색, 다운로드, 실행이 클릭 몇 번으로 끝난다.
FAQ
Q. 인터넷 연결이 없어도 정말 되나요?
모델을 한 번 다운받고 나면 완전 오프라인에서 작동합니다. 비행기 모드에서 테스트해봤고 정상 작동했습니다. 단, 처음 모델 다운로드할 때만 인터넷이 필요합니다.
Q. ChatGPT 수준의 품질을 기대해도 되나요?
7B~13B 모델은 GPT-3.5 수준, 70B 이상은 GPT-4에 근접합니다. 단순 작업이나 코딩은 충분히 만족스럽지만, 복잡한 추론에서는 아직 차이가 납니다. "완전히 대체"가 아니라 "보완"으로 접근하는 게 현실적입니다.
Q. 어떤 모델이 한국어를 제일 잘 하나요?
2026년 기준으로는 EXAONE(LG AI Research), SOLAR(Upstage), 그리고 Qwen 시리즈가 한국어 성능이 좋습니다. Ollama에서 ollama run exaone3.5로 바로 사용 가능합니다. Mistral이나 Llama 계열보다 한국어 출력 품질이 확연히 다릅니다.
Q. 회사 업무에 써도 법적으로 문제없나요?
오픈소스 모델의 라이선스를 확인해야 합니다. Llama3는 상업적 이용이 가능하지만 월간 활성 사용자 7억 명 이상 기업엔 별도 계약이 필요합니다. Mistral, Qwen 계열은 대부분 Apache 2.0이라 상업 이용에 제약이 없습니다. 사용 전 해당 모델의 라이선스를 반드시 확인하세요.
Q. 파인튜닝(fine-tuning)도 직접 할 수 있나요?
가능합니다. 하지만 모델 자체를 파인튜닝하려면 더 높은 사양(A100급 GPU)이 필요합니다. 일반 사용자라면 파인튜닝 대신 시스템 프롬프트 커스터마이징이나 RAG(검색 기반 생성, Retrieval-Augmented Generation) 방식을 먼저 시도해보세요. 로컬에서 Ollama + Open WebUI 조합이면 RAG 파이프라인도 쉽게 구성할 수 있습니다.
Q. MacBook Air M2로도 되나요?
됩니다. M2 Air 8GB 모델도 3B~7B 모델은 돌아갑니다. 다만 8GB 공유 메모리라 시스템 메모리까지 잡아먹히면 느려질 수 있습니다. 가능하면 M2/M3 16GB 이상을 권장합니다.
마무리: 오늘 당장 해볼 수 있는 것
로컬 LLM은 클라우드 AI의 대체제가 아니다. 서로 다른 강점을 가진 다른 도구다.
직접 경험해보지 않으면 막연한 기대나 막연한 불신 중 하나로 끝난다. 다행히 시작 비용이 0원이다.
지금 해볼 액션 아이템:
- Ollama 설치하고
ollama run llama3.2실행해보기 (5분) - 평소에 Claude나 ChatGPT에 던지는 질문 10개를 로컬 LLM에 똑같이 던져보기
- 결과 품질, 속도, 체감 차이를 직접 메모해두기
- 한국어가 중요하다면
ollama run exaone3.5도 비교해보기 - 민감한 업무 자료가 있다면 그것부터 로컬에서 테스트해보기
2주만 써봐도 "이걸 언제 써야 하는지"가 자연스럽게 감이 온다. 백 번 설명 듣는 것보다 한 번 직접 터미널 켜는 게 낫다.