ChatGPT나 Claude 같은 클라우드 AI는 편리하지만 비용이 들고, 개인 정보를 외부 서버로 보내야 합니다. 이제는 내 PC에서 직접 AI를 실행할 수 있는 시대가 됐습니다. 오늘은 Ollama와 Gemma를 활용해 완전 무료로 로컬 LLM을 구동하는 방법을 정리했습니다.
로컬 LLM이란? 왜 필요할까요?
로컬 LLM(Local Large Language Model)은 인터넷 연결 없이 내 PC에서 직접 실행하는 AI 언어 모델입니다. 클라우드 AI와 달리 다음과 같은 장점이 있습니다.
- 완전 무료: API 비용 없음, 사용량 제한 없음
- 프라이버시 보호: 데이터가 외부 서버로 전송되지 않음
- 오프라인 사용 가능: 인터넷 없이도 동작
- 무제한 실험: 다양한 모델을 자유롭게 테스트 가능
필요한 PC 사양은?
| 구분 | 최소 | 권장 |
|---|---|---|
| RAM | 8GB | 16GB 이상 |
| VRAM (GPU) | 없어도 가능 | 8GB 이상 |
| 저장공간 | 10GB | 50GB 이상 |
| CPU | 4코어 | 8코어 이상 |
GPU가 없어도 CPU만으로 실행할 수 있지만, 응답 속도가 느립니다. GPU가 있으면 훨씬 빠르게 작동합니다.
Ollama — 가장 쉬운 로컬 LLM 실행 도구
Ollama는 로컬에서 AI 모델을 가장 쉽게 실행할 수 있는 툴입니다. Docker처럼 모델을 pull해서 바로 실행할 수 있습니다.
Ollama 설치 방법
Windows / macOS: ollama.com에서 설치 파일을 받아 실행합니다. 설치 후 자동으로 백그라운드에서 실행됩니다.
Linux: 터미널에서 한 줄로 설치됩니다.
curl -fsSL https://ollama.com/install.sh | sh
모델 실행하기
설치 후 터미널에서 다음 명령어만 입력하면 됩니다. 처음 실행 시 자동으로 모델을 다운로드합니다.
# Gemma 3 실행 (구글 최신 모델)
ollama run gemma3
# 더 작고 빠른 버전
ollama run gemma3:2b
# Llama 3.2 실행
ollama run llama3.2
# Mistral 실행
ollama run mistral
Google Gemma — PC에서 실행하는 구글 AI
Gemma는 구글이 공개한 오픈소스 AI 모델로, 성능 대비 용량이 작아 로컬 실행에 최적화되어 있습니다. 2026년 현재 최신 버전은 Gemma 3입니다.
| 모델 | 파라미터 | 필요 RAM | 특징 |
|---|---|---|---|
| gemma3:2b | 2B | 4GB | 매우 빠름, 간단한 작업 |
| gemma3:4b | 4B | 8GB | 균형 잡힌 성능 |
| gemma3:12b | 12B | 16GB | 높은 정확도 |
| gemma3:27b | 27B | 32GB | 최고 성능 |
일반 가정용 PC(RAM 16GB)라면 gemma3:4b가 속도와 성능의 균형이 가장 좋습니다.
실제 활용 예시
1. 대화형 채팅
ollama run gemma3:4b
>>> 한국어로 이메일 작성 도와줘
2. 파이썬으로 API 활용
Ollama는 로컬에서 REST API를 제공합니다. 파이썬 코드로 자동화할 수 있습니다.
import requests
response = requests.post("http://localhost:11434/api/generate", json={
"model": "gemma3:4b",
"prompt": "파이썬으로 피보나치 수열 만드는 코드 짜줘",
"stream": False
})
print(response.json()["response"])
3. Open WebUI로 ChatGPT처럼 사용하기
CLI가 불편하다면 Open WebUI를 설치하면 브라우저에서 ChatGPT처럼 사용할 수 있습니다.
docker run -d -p 3000:8080
-v open-webui:/app/backend/data
--add-host=host.docker.internal:host-gateway
ghcr.io/open-webui/open-webui:main
설치 후 http://localhost:3000에 접속하면 채팅 인터페이스를 바로 사용할 수 있습니다.
LM Studio — GUI로 쉽게 관리하기
명령어가 불편하다면 LM Studio가 좋은 선택입니다. lmstudio.ai에서 다운로드할 수 있으며, GUI 인터페이스로 모델을 검색·다운로드·실행할 수 있습니다.
- 허깅페이스(Hugging Face) 모델 직접 검색 및 다운로드
- 로컬 서버 기능 내장 (OpenAI 호환 API)
- Windows, macOS, Linux 모두 지원
- 모델 간 성능 비교 가능
추천 로컬 LLM 조합 정리
| 상황 | 추천 조합 |
|---|---|
| 처음 시작하는 분 | Ollama + gemma3:4b |
| GUI 선호 | LM Studio + Llama 3.2 |
| 개발자 활용 | Ollama API + Python |
| ChatGPT UI 원하는 분 | Ollama + Open WebUI |
| 저사양 PC | Ollama + gemma3:2b |
마무리
Ollama와 Gemma 조합은 입문자가 로컬 LLM을 시작하기 가장 좋은 환경입니다. 설치부터 실행까지 10분이면 충분하고, 비용은 전혀 들지 않습니다. 클라우드 AI가 부담스럽거나 개인 정보 보호가 중요한 작업에 적극 활용해보세요.
특히 업무 문서 작성, 코드 보조, 번역 등 일상적인 작업에서 클라우드 AI 못지않은 결과물을 낼 수 있습니다. 지금 바로 설치해서 직접 경험해보세요!
핑백: [Google Gemma 시리즈 2편] 초심자 완전 세팅 가이드 — Ollama 설치부터 첫 실행까지 - Aria AI