Gemma 4: 가성비 하드웨어에서 96 tok/s

초당 96 토큰. 가성비 하드웨어에서. Gemma 4는 어제 막 공개된 게 아니다—점심때쯤 내 코드베이스 실제 버그를 고치고 있었다.

구글의 최신 오픈 모델 출시. 스펙 시트상으로는 인상적. 하지만 논문은 거짓말한다. 아니, 적어도 과장한다. 집 랩 켜서—NVIDIA RTX 5060 Ti 두 장, 총 32GB VRAM—공식 벤치마크를 웃도는 속도로 달렸다.

문제는 이거다. 기본 llama.cpp? 완전 크래시. ‘Unknown model architecture: gemma4.’ 놀랄 일도 아니다. 구글이 항상 그래, 커브 앞서간다. 그렇게 생각하는 거지.

왜 직접 llama.cpp 빌드부터 하나?

CUDA 이미지 먼저 시도. 안 돼. HEAD에서 직접 빌드. 클러스터에 Kaniko 잡 돌려. 15분 만에 커스텀 이미지 레지스트리에. GitHub Actions 춤 안 추고. 클라우드 청구서도 없고.

Dockerfile? 간단. llama.cpp 마스터 클론, Ampere랑 Blackwell용 CUDA cmake. SM 86;120. 같은 쿠버네티스에 푸시해서 추론 돌림. 모든 걸 셀프 호스팅. 2024년인데 왜 ML 스택을 남 믿나?

배포 명령: llmkube deploy gemma4-26b –gpu –cuda –gpu-count 2. Hugging Face에서 모델 가져와 Q4_K_M 15.6GB. 플래시 어텐션, Jinja 템플릿, 32K 컨텍스트. 오퍼레이터가 쿠버네티스 허드워크 다 해줌. 헬스 프로브. OpenAI 엔드포인트. 끝.

명령부터 첫 토큰까지 3분. 대부분 다운로드. 그다음—쾅. 생성 96 tok/s. 프롬프트 128 tok/s. 로드 걸면 집계 처리량 170. 에러 제로. P50 지연 2초.

참고로, 떠도는 제네릭 벤치마크에 따르면 Gemma 4 26B-A4B가 “가성비 하드웨어에서 40 tok/s 초과”. 우리는 싱글 리퀘스트 96 tok/s, 동시 로드 170 tok/s다.

원 포스터의 자랑거리. 정당하다. MoE 마법—토큰당 4B 액티브 파라미터만. 듀얼 GPU가 로드 쪼개서 프로처럼. 공식 수치? 웃기지 마.

하지만 속도만으로는 의미 없다. 실제 버그 던져봤다. 내 프로젝트 거. 쿠버네티스 롤링 업데이트가 GPU에서 데드락. 새 파드 자원 못 잡고, 기존 파드가 나쁜 전 애인처럼 붙잡음.

Gemma 4? 제대로 찍음. ‘Recreate 전략 써, RollingUpdate 말고. GPU 수 조건으로.’ 체인 오브 쏘트 추론. 엣지 케이스까지 커버. 완전 YAML 패치. 1024 토큰에 10.6초.

다음: InferenceServices 삭제 후 고아 엔드포인트. 출력? 프로덕션 Go 코드. UnregisterEndpoint 메서드. DNS 세정. Service/Endpoint 정리. NotFound 핸들링. 로그. 딱 맞음.

11.1초.

테스트? 내 Gomega 스위트랑 정확히 맞음. BeforeEach. ContainElements. NotTo(ContainElement). 네 케이스. 12.3초.

인상적. Claude 급은 아냐. 복잡 멀티스텝에서 추론 약해짐. 한계에서 끊을 때도. 하지만 개발 드루지리 80%는 충분.

내 게이밍 리그에서 Gemma 4 돌릴 수 있나?

간단히: 돼. 32GB VRAM 있으면. 내 Ryzen 9, Ubuntu 24.04, MicroK8s. NVIDIA 590 드라이버. 한 장 4090으로 스케일 다운? 여전히 가능. Q4 퀀트가 슬림하게.

진짜 승리? ‘구글 발표’부터 ‘내 하드웨어 굴러가기’까지 몇 시간으로 줄음. GGUF 퀀타이즈 포트나 엔터프라이즈 디스트로 기다리는 주 아님.

구글 PR 스핀? ‘모두를 위한 오픈 모델!’ 귀엽네. 하지만 대부분 개발자가 소스 빌드 안 할 거 알아. K8s 오퍼레이터 관리도. 그게 모트—미묘한 무능 장벽.

그래도 해버렸다. LLMKube가 오퍼레이션 다 해줌. 모델 하나 CRD, 서비스 하나. 베이비시팅 없음.

내 독특한 불만에서 예측: 이게 AI 추론의 Homebrew 순간이다. 초기 CUDA 기억나? NVIDIA 바이너리 떨구자 해커들이 직접 브루. GPU 혁명 촉발. Gemma 4도 마찬가지. 개발자들이 포크하고 퀀타이즈, 로컬 최적화할 거다. Anthropic 같은 클라우드 거인? ‘안전’ 운운하며 $20/리퀘스트 API에서 우리는 맴돌게.

대담한 전망: 연말까지 인디 개발자 50%가 클라우드 LLM 버리고 이런 로컬 MoE 괴물로. 전기세? 백만 토큰당 $0.02. Grok 가격이랑 비교해봐.

왜 공식 벤치마크를 압살하나?

테이블은 거짓말 안 함.

생성: 96 tok/s. 프롬프트: 128 tok/s. 모델: 15.6GB. 처리량: 집계 170 tok/s. 110 리퀘스트. 에러 0%.

제네릭 블로그? ‘40 tok/s 넘음.’ 쿡. 싱글 노드 신화. 동시성 없음. 실제 로드 없음.

MoE 여기서 빛남. 총 26B, 액티브 4B. KV 캐시가 남은 16GB VRAM 홀짝. 32K 컨텍스트? 식은 죽 먹기.

의심? 직접 돌려봐. 전기계량기 돌면 나 탓 마.

기업 홍보 검증. 구글 Gemma 오픈소스화로 ‘AI 민주화’. 그래. Vertex AI 세게 밀면서. 이 로컬 속도? 자기 클라우드 피치 깎아먹음. 우발적 반란?

버그 픽스는 허세 아님. 프로덕션 코드. 내 스타일 딱. 90% 그대로 머지 가능.

한계? 있지. 복잡 체인 약함. K8s 구석진 부분에서 할루시네이션. 하지만 반복—프롬프트 더 잘, 모델 체인. 도구지 신 아님.

어두운 면: 아직 GPT-4o는 아냐

트위스트에서 얕은 추론. 생각 중간 토큰 절벽. 파인튜닝? GGUF가 쉬움.

내 주장: 로컬 AI가 하루아침에 장난감에서 팀원으로. 내 리그 ShadowStack—중간 클라우드보다 지연과 비용 앞섬.

역사적 비유? ‘95년 리눅스 커널 패치. 거칠고 날것. 하지만 스택 소유. Gemma 4가 코드 생성 그거다.

🧬 관련 인사이트

더 읽기: Python Pipeline Turns News Noise into Actionable Intel
더 읽기: VakyaLang: Sanskrit Syntax Meets Modern Bytecode VM

자주 묻는 질문

Gemma 4가 뭔데, 어떻게 배포하나?

구글 오픈 MoE 모델, 26B 파라미터. K8s나 베어메탈에 llama.cpp로 배포. 지원 위해 HEAD 빌드. 속도 위해 Q4_K_M GGUF 써.

RTX 4090 같은 가성비 GPU에서 Gemma 4 속도는?

듀얼 5060 Ti 싱글 리퀘스트 96 tok/s. 싱글 4090이면 60-80 예상. MoE 효율이 데ンス 모델 압살.

Gemma 4가 실제 프로덕션 버그 고칠 수 있나?

네, K8s GPU 스케줄링이나 엔드포인트 누수 같은 직선 문제. 초 만에 머지 준비 코드 생성. 복잡 로직? 인간 손질 필요.

Gemma 4: 가성비 하드웨어에서 96 tok/s

Key Takeaways

왜 직접 llama.cpp 빌드부터 하나?

내 게이밍 리그에서 Gemma 4 돌릴 수 있나?

왜 공식 벤치마크를 압살하나?

어두운 면: 아직 GPT-4o는 아냐

🧬 관련 인사이트

Worth sharing?

⚡ Key Takeaways

왜 직접 llama.cpp 빌드부터 하나?

내 게이밍 리그에서 Gemma 4 돌릴 수 있나?

왜 공식 벤치마크를 압살하나?

어두운 면: 아직 GPT-4o는 아냐

🧬 관련 인사이트

Share this article

Worth sharing?

Related Stories

RAG(검색 증강 생성)란 무엇인가?

안스로픽 Mythos Preview, 밤새 완벽 익스플로잇 뽑아냈지만… 당신 몫은 아냐

Claude Mythos 프리뷰가 수천 제로데이 캐냈다: AI가 보안 판 바꿔놓았다

React 서버 컴포넌트 만점 RCE 취약점, 수백만 앱 노출 위기

Key Takeaways