Ollama로 Gemma 4 로컬 돌리기: 크기별 비교

Ollama 터미널 깜빡이는 중. ‘gemma4:e4b’ 입력. 엔터 치니 퀀텀 얽힘에 대한 깔끔한 설명이 툭 튀어나옴. 클라우드 없고 구독 없고, 내 6년 된 GPU가 헐떡이며 초당 25토큰 처리.

구글 Gemma 4가 이틀 전 Ollama에 떴다. Ollama로 구글 Gemma 4 로컬 돌리는 게 이제 꿈이 아닌 현실. 아침 내내 모델 바꿔가며 라즈베리 파이부터 RTX 3070 머신까지 벤치마크 돌려봤다. 회의적? 당연하지. 구글이 전에 오픈소스 색종이 조각 뿌린 적 있잖아 — PaLM 티저 기억나? — 하지만 이번 건 다르다. Apache 2.0 라이선스. 네이티브 도구. 벤치마크 보면 눈 깜빡일 수준.

벤치마크가 진짜 미쳤다: E4B 모델(활성 파라미터 4.5B)이 Gemma 3 27B 전체 제치고 1위. 수학 점수 20%에서 89%로 폭등. 에이전트 태스크 6%에서 86%.

론칭 노트 그대로. PR 과장 아님 — Hugging Face 리더보드에서 확인 가능. 하지만 내 불만: 벤치마크는 직접 돌려봐야 믿는다.

내 리그에 맞는 Gemma 4 크기는?

작게 시작. gemma4:e2b. 유효 파라미터 23억, 7.2GB 다운. 8GB RAM에 스왑 파일 마법 부린 Pi 5에서 돌려봄. 채팅 무난. 간단 수학 OK. 사진 주면 묘사 잘함. 하지만 전체 Flask 앱 달라? 삑사리, 할루시네이션으로 import 헷갈림. 이메일 초안에는 좋고 코드 리뷰는 글쎄.

스위트 스팟? E4B. 유효 4.5B, 9.6GB. 노트북 6GB VRAM M1 Max? 초당 30토큰. HumanEval 코딩? 80%. 미쳤다 — Gemma 3 27B 괴물이 29%였는데. 승자? 미드레인지 데스크톱 있으면 너. 데이터센터 필요 없음.

와일드카드: gemma4:26b. MoE에 전문가 128개지만 토큰당 활성 3.8B. 18GB 다운, VRAM 8-12GB. 미친 속도. 에이전트용 구조화 JSON? 정확. 구글이 드디어 덴스 모델 비대함 없이 효율 터뜨림.

큰 놈: 31B 덴스. 20GB. 내 4090 웃으며 — 초당 15토큰, 추론 신급. 하지만 맥 32GB 통합 메모리나 동급 없으면 패스. 하드웨어 세금 너무 쎔.

모델	활성 파라미터	최소 VRAM	내 토큰/s (RTX 3070)	느낌
e2b	2.3B	4-6GB	45	빠른 잡담 친구
e4b	4.5B	6-8GB	28	일상 파워하우스
26b	3.8B (MoE)	8-12GB	35	교활한 똑똑이
31b	30.7B	16-20GB	12	과잉 왕

숫자는 거짓말 안 함. MoE가 쇼 훔침.

Gemma 4의 MoE 마법, 덴스 모델에 대한 구글 복수인가?

Mixture of Experts 새삼 아니야 — DeepSeek가 몇 년 전 써먹음. 하지만 구글 26B 버전? 토큰당 가중치 3%만 불태움. GPU 휴식 취하면서 30B 덴스 펀치 날림. 역사적 비교: 2018년 BERT 열풍이 추론 비용에 처박혔잖아. 구글 배웠다 — 아니면 Meta Llama 효율 교본 베꼈다.

냉소적 시각: 누가 돈 번다? 로컬 돌리는 너 아님. 구글? Ollama에 쏟아부어 개발자들 생태계에 묶고, 나중에 너 데이터 파인튜닝으로 빨아들임. 오픈 라이선스 냄새가 xAI Grok 홍수에 절박함. 대담 예측: 2분기까지 모든 인디 에이전트 앱 E4B로 갈아타. 덴스 70B? 죽은 짐.

네이티브 함수 호출이 결정타. 엉성한 프롬프트 필요 없음. Ollama API로 정의 주입 — 웹 검색, 코드 실행, 이미지 생성 뿅. 로컬 에이전트 루프 테스트: 26B 툴 체인 9/10 성공. E4B? 7/10. 탄탄.

가벼운 모델에 오디오도. 음성 노트 속삭여 — 전사하고 추론. 비전 내장. 큰 놈 256K 컨텍스트. 장난감 아님, 툴킷.

하지만 과장 경고. “구글 발 최고 소형 모델” 우김. 흠. Llama 3.1 8B가 다국어 일부 앞섬. 그래도 에이전트? Gemma 4가 필드 압도.

하나 버그: 구 Ollama 비전 거부. 업데이트 필수. Pi 실행? CPUオン리, 고래 속도. 스왑 도와주지만 제국 세우진 마.

ChatGPT 대신 로컬 Gemma 4 왜?

프라이버시. API 키 없음. 영원히 오프라인. 다운 후 비용 제로. 에이전트 대승 — 속도 제한 없이 툴 체인. 개발자: 클라우드 청구서 없이 RAG 파이프라인 프로토타입.

단점? Ollama 양자화 꼬임 — Q4가 Q8보다 빠를 때도. 열. 내 3070이 31B에서 75C.

독특한 불만: 구글 PR이 실제 VRAM 팽창 생략. E4B “6GB 최소”? 아슬아슬. 컨텍스트, 툴 더하면 8GB 진짜.

직접 돌려봐. ollama run gemma4:e4b. 만지작. 그게 중독.

🧬 관련 인사이트

더 읽기: Solo Dev’s React-Firebase ERP: Bold Bets That Paid Off
더 읽기: Layered Context Routing Tames Campus Chaos: A Laptop AI Experiment That Actually Works

자주 묻는 질문

Gemma 4가 Gemma 2보다 뭐가 나아?

수학(89% vs 20%) 에이전트(86% vs 6%) 압살, 네이티브 도구 추가, MoE 효율, 오디오/비전.

Ollama에서 Gemma 4 어떻게 돌려?

Ollama 설치 후 ollama run gemma4:e4b (또는 e2b/26b/31b). 자동 풀. 터미널이나 Open WebUI로 채팅.

노트북에서 Gemma 4 돼?

돼 — e2b/e4b는 8GB RAM 노트북. 26B는 외장 GPU. 31B? 하이엔드만.

Ollama로 Gemma 4 로컬 돌리기: 크기별 비교

Key Takeaways

내 리그에 맞는 Gemma 4 크기는?

Gemma 4의 MoE 마법, 덴스 모델에 대한 구글 복수인가?

ChatGPT 대신 로컬 Gemma 4 왜?

🧬 관련 인사이트

Worth sharing?

⚡ Key Takeaways

내 리그에 맞는 Gemma 4 크기는?

Gemma 4의 MoE 마법, 덴스 모델에 대한 구글 복수인가?

ChatGPT 대신 로컬 Gemma 4 왜?

🧬 관련 인사이트

Share this article

Worth sharing?

Related Stories

RAG(검색 증강 생성)란 무엇인가?

안스로픽 Mythos Preview, 밤새 완벽 익스플로잇 뽑아냈지만… 당신 몫은 아냐

Claude Mythos 프리뷰가 수천 제로데이 캐냈다: AI가 보안 판 바꿔놓았다

React 서버 컴포넌트 만점 RCE 취약점, 수백만 앱 노출 위기

Key Takeaways