로컬 LLM 처음 돌려보기, Ollama로 5분 안에 시작하는 방법은?

왜 Ollama인가?

클라우드 API 비용도, 개인정보 유출 걱정도 없이 내 PC에서 GPT급 AI를 돌릴 수 있다. Ollama는 설치부터 모델 실행까지 5분이면 충분하며, M1/M2/M3 맥북부터 RTX GPU를 탑재한 윈도우 PC까지 다양한 환경을 지원한다. 이 가이드는 설치 경험이 전혀 없는 사람도 따라 할 수 있도록 실제 사용 경험을 바탕으로 작성했다.

Ollama가 뭔가요?

Ollama는 오픈소스 로컬 LLM 실행 도구다. Docker처럼 명령어 하나로 모델을 내려받고 터미널에서 바로 대화할 수 있다. 내부적으로는 llama.cpp를 기반으로 CPU/GPU 모두에서 추론을 최적화한다.

완전 무료: API 키 없음, 월정액 없음
오프라인 동작: 인터넷 없이 사용 가능 (최초 모델 다운로드 제외)
개인정보 보호: 모든 데이터가 내 PC에서만 처리됨
REST API 제공: localhost:11434로 OpenAI 호환 API 제공

직접 써보면 어떨까?

처음 써본 솔직한 느낌: M2 맥북 프로에서 Llama3.2 3B 모델을 돌렸을 때 응답 속도가 약 40~50 token/s 정도 나왔다. GPT-4 수준은 아니지만 간단한 질의응답, 코드 리뷰, 번역에는 충분히 쓸 만하다.

시스템 요구사항

항목	최소 사양	권장 사양
RAM	8 GB	16 GB 이상
저장공간	10 GB	50 GB 이상
GPU (선택)	없어도 됨	NVIDIA RTX / Apple Silicon
OS	macOS 11+, Windows 10+, Linux	—

CPU만으로도 동작하지만, 7B 이상 모델은 응답 속도가 3~~5 token/s까지 떨어질 수 있다. GPU가 있으면 30~~60 token/s로 훨씬 빨라진다.

설치 방법

macOS / Windows

공식 사이트에서 인스톨러를 내려받아 실행하면 끝이다. macOS는 메뉴바 아이콘으로 서버 상태를 확인할 수 있다.

Linux (1줄 설치)

curl -fsSL https://ollama.com/install.sh | sh

설치 후 자동으로 백그라운드 서비스(ollama serve)가 시작된다.

첫 번째 모델 실행하기

1단계: 모델 다운로드 + 실행 (명령어 1개)

ollama run llama3.2

처음 실행 시 모델 파일을 자동으로 내려받는다. Llama3.2 3B 기준 약 2.0 GB이며, 다운로드 완료 후 바로 대화 프롬프트(>>>)가 뜬다.

2단계: 대화 시작

>>> 한국의 수도는 어디야?
서울입니다. 서울은 대한민국의 수도이자 최대 도시로...

/bye 또는 Ctrl+D로 종료한다.

3단계: 설치된 모델 확인

ollama list

어떤 모델을 골라야 할까?

모델	크기	VRAM	특징	추천 용도
llama3.2:3b	2.0 GB	4 GB	빠름, 가벼움	일상 대화, 빠른 테스트
llama3.1:8b	4.7 GB	6 GB	균형	번역, 요약, 코드
mistral:7b	4.1 GB	5 GB	영어 강점	영문 문서 작업
gemma3:12b	8.1 GB	10 GB	구글 최신	멀티모달 지원
qwen2.5:7b	4.7 GB	6 GB	한국어 강함	한국어 특화 작업
deepseek-r1:8b	4.9 GB	6 GB	추론 특화	수학, 논리 문제

처음이라면: RAM 16 GB 이하는 llama3.2:3b, 16 GB 이상은 qwen2.5:7b(한국어) 또는 llama3.1:8b를 추천한다.

유용한 명령어 모음

# 모델 다운로드만 (실행 없이)
ollama pull mistral

# 특정 모델로 일회성 질문
ollama run llama3.2 "파이썬으로 피보나치 수열 짜줘"

# 모델 삭제
ollama rm llama3.2

# 현재 실행 중인 모델 확인
ollama ps

# API로 직접 호출 (OpenAI 호환)
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "안녕하세요",
  "stream": false
}'

Open WebUI로 ChatGPT처럼 쓰기

터미널이 불편하다면 Open WebUI를 붙여서 쓰면 된다. Docker가 있다면 명령어 한 줄로 바로 올릴 수 있다:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

이후 http://localhost:3000에 접속하면 ChatGPT처럼 생긴 UI에서 Ollama 모델을 쓸 수 있다.

직접 써본 팁: Open WebUI는 대화 히스토리 저장, 시스템 프롬프트 설정, 다중 모델 전환을 지원한다. 설정 → Connections에서 Ollama URL을 http://host.docker.internal:11434로 지정해야 한다.

→ Open WebUI 공식 사이트

자주 겪는 문제와 해결법

"ollama: command not found" (Linux)

export PATH=$PATH:~/.local/bin
source ~/.bashrc

모델 응답이 너무 느릴 때

7B 이상 모델을 CPU로 돌리면 3~5 token/s까지 느려진다. llama3.2:3b로 교체하거나, 대화 시작 후 /set parameter num_ctx 512로 컨텍스트 크기를 줄인다.

GPU가 인식 안 될 때 (NVIDIA)

# CUDA 드라이버 확인
nvidia-smi
# Ollama 서비스 재시작
systemctl restart ollama

모델이 한국어를 잘 못할 때

기본 llama3.2는 영어 중심이다. 한국어 작업에는 qwen2.5:7b 또는 exaone3.5:7.8b가 훨씬 낫다.

FAQ

Q. Ollama는 완전 무료인가요?

Ollama 자체는 MIT 라이선스 오픈소스이며 계속 무료로 쓸 수 있다. 단, Meta의 Llama나 Google의 Gemma 등 개별 모델은 각자의 라이선스(대부분 개인·연구 목적 무료, 상업 이용은 별도 확인 필요)를 따른다.

Q. 맥북 M1/M2/M3에서 잘 돌아가나요?

매우 잘 된다. Apple Silicon의 Unified Memory 덕분에 16 GB 맥북에서 8B 모델도 40 token/s 이상 나온다. Metal GPU 가속을 자동으로 사용하므로 별도 설정이 필요 없다.

Q. ChatGPT나 Claude와 성능 차이가 얼마나 나나요?

7B~14B급 로컬 모델은 GPT-3.5 수준이며, GPT-4o나 Claude Sonnet과는 복잡한 추론·창작에서 차이가 있다. 단순 코드 작성, 번역, 요약 등 반복적인 실무 작업에서는 로컬 모델만으로도 충분하다.

Q. 모델 파일은 어디에 저장되나요?

macOS는 ~/.ollama/models, Linux는 /usr/share/ollama/.ollama/models, Windows는 C:\\Users\\사용자명\\.ollama\\models에 저장된다.

Q. Python에서 Ollama를 쓸 수 있나요?

가능하다. pip install ollama 후 공식 Python SDK를 사용하거나, OpenAI 호환 엔드포인트(http://localhost:11434/v1)를 openai 라이브러리로 직접 호출할 수 있다.