[Google Gemma 시리즈 2편] 초심자 완전 세팅 가이드 — Ollama 설치부터 첫 실행까지

안녕하세요! Google Gemma 완전 가이드 시리즈의 두 번째 편에 오신 것을 환영합니다. 첫 번째 편에서는 Google Gemma의 전반적인 소개와 그 잠재력에 대해 알아보았습니다. 이번 2편에서는 Google Gemma를 여러분의 로컬 환경에서 직접 실행하고 경험해 볼 수 있도록, 초심자도 쉽게 따라 할 수 있는 완전한 세팅 가이드(Windows 기준)를 제공해 드리고자 합니다.

복잡해 보일 수 있지만, 차근차근 단계를 따라오시면 누구든 Gemma를 손안에 넣고 실험할 수 있습니다. 지금부터 Ollama 설치부터 Gemma 모델 다운로드, 그리고 첫 실행까지 모든 과정을 상세하게 안내해 드리겠습니다.

1. Ollama: Gemma를 쉽게 실행하는 마법사

Google Gemma와 같은 대규모 언어 모델(LLM)은 일반적으로 실행에 많은 기술적 지식과 복잡한 설정이 필요합니다. 하지만 Ollama 덕분에 이 과정이 훨씬 간편해졌습니다. Ollama는 로컬 환경에서 LLM을 쉽게 다운로드하고 실행할 수 있도록 도와주는 오픈 소스 도구입니다. 마치 LLM을 위한 ‘앱 스토어’와 같다고 생각하시면 됩니다.

1.1. Ollama 설치하기 (Windows)

Windows 환경에서의 Ollama 설치는 매우 간단합니다. 아래 단계를 따라오시면 됩니다.

Ollama 공식 웹사이트 방문: https://ollama.com/ 에 접속합니다.
다운로드 버튼 클릭: 웹사이트 중앙에 있는 ‘Download’ 버튼을 클릭합니다.
Windows 버전 선택: Windows 설치 파일을 다운로드합니다.
설치 프로그램 실행: 다운로드된 `OllamaSetup.exe` 파일을 실행합니다.
설치 진행: 기본 설정 그대로 ‘Next’를 눌러 설치를 완료합니다. 관리자 권한 요청이 있을 수 있으며, 허용해 주시면 됩니다.

설치가 완료되면 Ollama는 백그라운드에서 실행되며, 터미널(명령 프롬프트 또는 PowerShell)을 통해 LLM을 제어할 수 있게 됩니다. 별도의 창이 뜨지 않으니 당황하지 마세요.

2. Gemma 모델 다운로드 및 실행

이제 Ollama를 이용해 Google Gemma 모델을 다운로드하고 실행하는 과정을 살펴보겠습니다.

2.1. Gemma 모델 다운로드

Windows 터미널(명령 프롬프트 또는 PowerShell)을 열고 다음 명령어를 입력하여 Gemma 모델을 다운로드합니다. Gemma는 여러 크기가 있으며, 여기서는 가장 접근하기 쉬운 ‘gemma:2b’ 모델을 기준으로 설명합니다. (20억 개의 매개변수를 가진 모델)

ollama pull gemma:2b

이 명령어는 Gemma 2B 모델을 다운로드합니다. 다운로드 진행 상황이 터미널에 표시됩니다. 인터넷 속도에 따라 다소 시간이 소요될 수 있습니다. 다른 버전의 Gemma 모델(예: gemma:7b)을 사용하고 싶다면 모델 이름만 변경하여 입력하면 됩니다.

2.2. Gemma 모델 첫 실행 테스트

모델 다운로드가 완료되었다면, 이제 Gemma와 대화를 시작할 차례입니다. 터미널에서 다음 명령어를 입력합니다.

ollama run gemma:2b

이 명령어를 실행하면 Ollama가 다운로드된 Gemma 모델을 로드하고, 간단한 프롬프트(질문/지시)를 입력할 수 있는 대화 모드로 진입합니다. 프롬프트 앞에 >>> 기호가 나타나면 입력을 시작할 수 있습니다.

예시:

>>> 안녕하세요, Gemma! 나를 소개해줘.

Gemma가 응답을 생성하는 것을 볼 수 있습니다. 대화 모드를 종료하려면 /bye 또는 /exit를 입력합니다.

3. 기본 파라미터 설정

LLM의 응답은 파라미터에 따라 달라질 수 있습니다. Ollama는 몇 가지 중요한 파라미터를 간단하게 설정할 수 있도록 지원합니다.

3.1. 온도 (Temperature)

온도는 모델의 창의성 또는 무작위성을 조절합니다. 값이 높을수록 더 다양하고 창의적인 응답을 생성하지만, 때로는 사실과 벗어난 내용을 생성할 수도 있습니다. 값이 낮을수록 더 예측 가능하고 일관적인 응답을 생성합니다.

낮은 온도 (예: 0.2): 사실 기반 질문, 코드 생성 등 정확성이 중요할 때 유용합니다.
높은 온도 (예: 0.8): 창의적인 글쓰기, 스토리 생성 등 다양성이 중요할 때 유용합니다.

run 명령어와 함께 -t 옵션을 사용하여 온도를 설정할 수 있습니다.

ollama run gemma:2b -t 0.7

3.2. 컨텍스트 길이 (Context Length)

컨텍스트 길이는 모델이 한 번에 기억하고 처리할 수 있는 정보의 양을 결정합니다. 이 값은 모델이 얼마나 긴 대화 기록이나 문서 내용을 참고할 수 있는지를 나타냅니다. 더 긴 컨텍스트 길이는 복잡한 질문이나 긴 대화에서 더 나은 성능을 제공할 수 있지만, 더 많은 메모리를 사용합니다.

Gemma 모델 자체에 설정된 최대 컨텍스트 길이 내에서 Ollama는 이를 조절할 수 있습니다. (Gemma 2B 모델은 일반적으로 8192 토큰까지 지원합니다.)

run 명령어와 함께 --options 플래그를 사용하여 컨텍스트 길이를 설정할 수 있습니다. (참고: Gemma 자체의 최대값보다 높게 설정해도 의미가 없거나 오류가 발생할 수 있습니다.)

ollama run gemma:2b --options '{
      "num_ctx": 4096
    }'

이 예시는 컨텍스트 길이를 4096 토큰으로 설정합니다.

4. 자주 하는 실수와 해결법

초심자들이 흔히 겪는 문제들과 그 해결 방법을 미리 알아두면 시행착오를 줄일 수 있습니다.

4.1. “Model ‘gemma:2b’ not found” 오류

원인: 모델이 제대로 다운로드되지 않았거나, 모델 이름을 잘못 입력했을 때 발생합니다.
해결법:
- 정확한 모델 이름(`gemma:2b` 또는 다른 Gemma 버전)을 사용했는지 확인합니다.
- ollama list 명령어를 실행하여 현재 설치된 모델 목록을 확인합니다.
- 문제가 지속되면 ollama pull gemma:2b 명령어를 다시 실행하여 모델을 재다운로드합니다.

4.2. 응답이 느리거나 끊기는 현상

원인: 컴퓨터의 사양(특히 RAM)이 부족하거나, 다운로드된 모델이 너무 큰 경우 발생할 수 있습니다. num_gpu를 잘못 설정했을 수도 있습니다.
해결법:
- 조금 더 작은 모델(예: `gemma:2b` 대신 `tinydolphin` 등)을 시도해 봅니다.
- 컴퓨터의 RAM 여유 공간을 확보합니다.
- Ollama 설정에서 GPU 사용을 최적화하거나 비활성화할 수 있습니다. (고급 설정)

4.3. 터미널에서 응답이 끝없이 생성될 때

원인: 모델이 예상치 못한 루프에 빠졌거나, 특정 프롬프트에 대해 무한히 응답을 생성하려 할 때 발생할 수 있습니다.
해결법:
- Ctrl + C를 눌러 현재 실행 중인 명령을 중단합니다.
- 이전에 입력했던 프롬프트를 수정하거나, 더 명확한 지시를 내립니다.
- 온도(Temperature) 값을 낮춰보세요.

마무리하며

이번 편에서는 Ollama를 사용하여 Google Gemma를 여러분의 로컬 환경에 설정하고, 기본 모델을 실행하며, 중요한 파라미터들을 조정하는 방법에 대해 상세하게 알아보았습니다. 복잡하게 느껴질 수 있었던 LLM과의 상호작용이 Ollama를 통해 얼마나 간편해질 수 있는지 체감하셨기를 바랍니다.

이제 여러분은 Gemma와 함께 다양한 실험을 시작할 준비가 되었습니다. 다음 3편에서는 Gemma의 활용도를 더욱 높여줄 n8n과의 연동을 통한 자동화 활용법에 대해 알아보겠습니다. 반복적인 작업을 자동화하고, Gemma를 실제 워크플로우에 통합하는 방법을 기대해 주세요!

이전 편 보기: Google Gemma 시리즈 1편: 소개 및 잠재력 탐구