Ollama로 Gemma 4 로컬 돌리기: 크기별 비교

구글 Gemma 4가 Ollama에 상륙. 작은 몸에 미친 벤치마크 약속하지만 오프라인에서 제대로 하나, 아니면 허세?

Ollama에서 Gemma 4 네 크기 다 극한 테스트: 허접 하드웨어로 밀어붙여봤더니 — theAIcatchup

Key Takeaways

  • E4B가 일상 챔피언: 작은 하드웨어로 큰 모델 다 제압.
  • MoE 26B 효율 재정의 — VRAM 잔치 없이 빠르고 질 좋음.
  • 네이티브 도구와 오픈 라이선스로 에이전트 즉시 준비.

Ollama 터미널 깜빡이는 중. ‘gemma4:e4b’ 입력. 엔터 치니 퀀텀 얽힘에 대한 깔끔한 설명이 툭 튀어나옴. 클라우드 없고 구독 없고, 내 6년 된 GPU가 헐떡이며 초당 25토큰 처리.

구글 Gemma 4가 이틀 전 Ollama에 떴다. Ollama로 구글 Gemma 4 로컬 돌리는 게 이제 꿈이 아닌 현실. 아침 내내 모델 바꿔가며 라즈베리 파이부터 RTX 3070 머신까지 벤치마크 돌려봤다. 회의적? 당연하지. 구글이 전에 오픈소스 색종이 조각 뿌린 적 있잖아 — PaLM 티저 기억나? — 하지만 이번 건 다르다. Apache 2.0 라이선스. 네이티브 도구. 벤치마크 보면 눈 깜빡일 수준.

벤치마크가 진짜 미쳤다: E4B 모델(활성 파라미터 4.5B)이 Gemma 3 27B 전체 제치고 1위. 수학 점수 20%에서 89%로 폭등. 에이전트 태스크 6%에서 86%.

론칭 노트 그대로. PR 과장 아님 — Hugging Face 리더보드에서 확인 가능. 하지만 내 불만: 벤치마크는 직접 돌려봐야 믿는다.

내 리그에 맞는 Gemma 4 크기는?

작게 시작. gemma4:e2b. 유효 파라미터 23억, 7.2GB 다운. 8GB RAM에 스왑 파일 마법 부린 Pi 5에서 돌려봄. 채팅 무난. 간단 수학 OK. 사진 주면 묘사 잘함. 하지만 전체 Flask 앱 달라? 삑사리, 할루시네이션으로 import 헷갈림. 이메일 초안에는 좋고 코드 리뷰는 글쎄.

스위트 스팟? E4B. 유효 4.5B, 9.6GB. 노트북 6GB VRAM M1 Max? 초당 30토큰. HumanEval 코딩? 80%. 미쳤다 — Gemma 3 27B 괴물이 29%였는데. 승자? 미드레인지 데스크톱 있으면 너. 데이터센터 필요 없음.

와일드카드: gemma4:26b. MoE에 전문가 128개지만 토큰당 활성 3.8B. 18GB 다운, VRAM 8-12GB. 미친 속도. 에이전트용 구조화 JSON? 정확. 구글이 드디어 덴스 모델 비대함 없이 효율 터뜨림.

큰 놈: 31B 덴스. 20GB. 내 4090 웃으며 — 초당 15토큰, 추론 신급. 하지만 맥 32GB 통합 메모리나 동급 없으면 패스. 하드웨어 세금 너무 쎔.

모델 활성 파라미터 최소 VRAM 내 토큰/s (RTX 3070) 느낌
e2b 2.3B 4-6GB 45 빠른 잡담 친구
e4b 4.5B 6-8GB 28 일상 파워하우스
26b 3.8B (MoE) 8-12GB 35 교활한 똑똑이
31b 30.7B 16-20GB 12 과잉 왕

숫자는 거짓말 안 함. MoE가 쇼 훔침.

Gemma 4의 MoE 마법, 덴스 모델에 대한 구글 복수인가?

Mixture of Experts 새삼 아니야 — DeepSeek가 몇 년 전 써먹음. 하지만 구글 26B 버전? 토큰당 가중치 3%만 불태움. GPU 휴식 취하면서 30B 덴스 펀치 날림. 역사적 비교: 2018년 BERT 열풍이 추론 비용에 처박혔잖아. 구글 배웠다 — 아니면 Meta Llama 효율 교본 베꼈다.

냉소적 시각: 누가 돈 번다? 로컬 돌리는 너 아님. 구글? Ollama에 쏟아부어 개발자들 생태계에 묶고, 나중에 너 데이터 파인튜닝으로 빨아들임. 오픈 라이선스 냄새가 xAI Grok 홍수에 절박함. 대담 예측: 2분기까지 모든 인디 에이전트 앱 E4B로 갈아타. 덴스 70B? 죽은 짐.

네이티브 함수 호출이 결정타. 엉성한 프롬프트 필요 없음. Ollama API로 정의 주입 — 웹 검색, 코드 실행, 이미지 생성 뿅. 로컬 에이전트 루프 테스트: 26B 툴 체인 9/10 성공. E4B? 7/10. 탄탄.

가벼운 모델에 오디오도. 음성 노트 속삭여 — 전사하고 추론. 비전 내장. 큰 놈 256K 컨텍스트. 장난감 아님, 툴킷.

하지만 과장 경고. “구글 발 최고 소형 모델” 우김. 흠. Llama 3.1 8B가 다국어 일부 앞섬. 그래도 에이전트? Gemma 4가 필드 압도.

하나 버그: 구 Ollama 비전 거부. 업데이트 필수. Pi 실행? CPUオン리, 고래 속도. 스왑 도와주지만 제국 세우진 마.

ChatGPT 대신 로컬 Gemma 4 왜?

프라이버시. API 키 없음. 영원히 오프라인. 다운 후 비용 제로. 에이전트 대승 — 속도 제한 없이 툴 체인. 개발자: 클라우드 청구서 없이 RAG 파이프라인 프로토타입.

단점? Ollama 양자화 꼬임 — Q4가 Q8보다 빠를 때도. 열. 내 3070이 31B에서 75C.

독특한 불만: 구글 PR이 실제 VRAM 팽창 생략. E4B “6GB 최소”? 아슬아슬. 컨텍스트, 툴 더하면 8GB 진짜.

직접 돌려봐. ollama run gemma4:e4b. 만지작. 그게 중독.


🧬 관련 인사이트

자주 묻는 질문

Gemma 4가 Gemma 2보다 뭐가 나아?

수학(89% vs 20%) 에이전트(86% vs 6%) 압살, 네이티브 도구 추가, MoE 효율, 오디오/비전.

Ollama에서 Gemma 4 어떻게 돌려?

Ollama 설치 후 ollama run gemma4:e4b (또는 e2b/26b/31b). 자동 풀. 터미널이나 Open WebUI로 채팅.

노트북에서 Gemma 4 돼?

돼 — e2b/e4b는 8GB RAM 노트북. 26B는 외장 GPU. 31B? 하이엔드만.

Priya Sundaram
Written by

Hardware and infrastructure reporter. Tracks GPU wars, chip design, and the compute economy.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by dev.to