Gemma 4: 가성비 하드웨어에서 96 tok/s

초당 96 토큰. 내 듀얼 RTX 셋업에서 Gemma 4가 쿠버네티스 버그 리포트를 쌉가능으로 씹어댄 속도다. 구글 오픈 모델이 '기다리며 빌어먹기'를 '바로 배포하고 디버깅'으로 바꿔놓았다.

Gemma 4: 듀얼 RTX에서 초당 96토큰, 점심때 쿠버네티스 버그까지 싹 고침 — theAIcatchup

Key Takeaways

  • Gemma 4, 듀얼 RTX 가성비 하드웨어에서 96 tok/s로 공식 벤치마크 완파.
  • 출시부터 프로덕션 추론까지: 커스텀 llama.cpp 빌드 포함 2시간.
  • 쿠버네티스 실제 코드 버그—초 만에 프로덕션 Go와 YAML 픽스.

초당 96 토큰. 가성비 하드웨어에서. Gemma 4는 어제 막 공개된 게 아니다—점심때쯤 내 코드베이스 실제 버그를 고치고 있었다.

구글의 최신 오픈 모델 출시. 스펙 시트상으로는 인상적. 하지만 논문은 거짓말한다. 아니, 적어도 과장한다. 집 랩 켜서—NVIDIA RTX 5060 Ti 두 장, 총 32GB VRAM—공식 벤치마크를 웃도는 속도로 달렸다.

문제는 이거다. 기본 llama.cpp? 완전 크래시. ‘Unknown model architecture: gemma4.’ 놀랄 일도 아니다. 구글이 항상 그래, 커브 앞서간다. 그렇게 생각하는 거지.

왜 직접 llama.cpp 빌드부터 하나?

CUDA 이미지 먼저 시도. 안 돼. HEAD에서 직접 빌드. 클러스터에 Kaniko 잡 돌려. 15분 만에 커스텀 이미지 레지스트리에. GitHub Actions 춤 안 추고. 클라우드 청구서도 없고.

Dockerfile? 간단. llama.cpp 마스터 클론, Ampere랑 Blackwell용 CUDA cmake. SM 86;120. 같은 쿠버네티스에 푸시해서 추론 돌림. 모든 걸 셀프 호스팅. 2024년인데 왜 ML 스택을 남 믿나?

배포 명령: llmkube deploy gemma4-26b –gpu –cuda –gpu-count 2. Hugging Face에서 모델 가져와 Q4_K_M 15.6GB. 플래시 어텐션, Jinja 템플릿, 32K 컨텍스트. 오퍼레이터가 쿠버네티스 허드워크 다 해줌. 헬스 프로브. OpenAI 엔드포인트. 끝.

명령부터 첫 토큰까지 3분. 대부분 다운로드. 그다음—쾅. 생성 96 tok/s. 프롬프트 128 tok/s. 로드 걸면 집계 처리량 170. 에러 제로. P50 지연 2초.

참고로, 떠도는 제네릭 벤치마크에 따르면 Gemma 4 26B-A4B가 “가성비 하드웨어에서 40 tok/s 초과”. 우리는 싱글 리퀘스트 96 tok/s, 동시 로드 170 tok/s다.

원 포스터의 자랑거리. 정당하다. MoE 마법—토큰당 4B 액티브 파라미터만. 듀얼 GPU가 로드 쪼개서 프로처럼. 공식 수치? 웃기지 마.

하지만 속도만으로는 의미 없다. 실제 버그 던져봤다. 내 프로젝트 거. 쿠버네티스 롤링 업데이트가 GPU에서 데드락. 새 파드 자원 못 잡고, 기존 파드가 나쁜 전 애인처럼 붙잡음.

Gemma 4? 제대로 찍음. ‘Recreate 전략 써, RollingUpdate 말고. GPU 수 조건으로.’ 체인 오브 쏘트 추론. 엣지 케이스까지 커버. 완전 YAML 패치. 1024 토큰에 10.6초.

다음: InferenceServices 삭제 후 고아 엔드포인트. 출력? 프로덕션 Go 코드. UnregisterEndpoint 메서드. DNS 세정. Service/Endpoint 정리. NotFound 핸들링. 로그. 딱 맞음.

11.1초.

테스트? 내 Gomega 스위트랑 정확히 맞음. BeforeEach. ContainElements. NotTo(ContainElement). 네 케이스. 12.3초.

인상적. Claude 급은 아냐. 복잡 멀티스텝에서 추론 약해짐. 한계에서 끊을 때도. 하지만 개발 드루지리 80%는 충분.

내 게이밍 리그에서 Gemma 4 돌릴 수 있나?

간단히: 돼. 32GB VRAM 있으면. 내 Ryzen 9, Ubuntu 24.04, MicroK8s. NVIDIA 590 드라이버. 한 장 4090으로 스케일 다운? 여전히 가능. Q4 퀀트가 슬림하게.

진짜 승리? ‘구글 발표’부터 ‘내 하드웨어 굴러가기’까지 몇 시간으로 줄음. GGUF 퀀타이즈 포트나 엔터프라이즈 디스트로 기다리는 주 아님.

구글 PR 스핀? ‘모두를 위한 오픈 모델!’ 귀엽네. 하지만 대부분 개발자가 소스 빌드 안 할 거 알아. K8s 오퍼레이터 관리도. 그게 모트—미묘한 무능 장벽.

그래도 해버렸다. LLMKube가 오퍼레이션 다 해줌. 모델 하나 CRD, 서비스 하나. 베이비시팅 없음.

내 독특한 불만에서 예측: 이게 AI 추론의 Homebrew 순간이다. 초기 CUDA 기억나? NVIDIA 바이너리 떨구자 해커들이 직접 브루. GPU 혁명 촉발. Gemma 4도 마찬가지. 개발자들이 포크하고 퀀타이즈, 로컬 최적화할 거다. Anthropic 같은 클라우드 거인? ‘안전’ 운운하며 $20/리퀘스트 API에서 우리는 맴돌게.

대담한 전망: 연말까지 인디 개발자 50%가 클라우드 LLM 버리고 이런 로컬 MoE 괴물로. 전기세? 백만 토큰당 $0.02. Grok 가격이랑 비교해봐.

왜 공식 벤치마크를 압살하나?

테이블은 거짓말 안 함.

생성: 96 tok/s. 프롬프트: 128 tok/s. 모델: 15.6GB. 처리량: 집계 170 tok/s. 110 리퀘스트. 에러 0%.

제네릭 블로그? ‘40 tok/s 넘음.’ 쿡. 싱글 노드 신화. 동시성 없음. 실제 로드 없음.

MoE 여기서 빛남. 총 26B, 액티브 4B. KV 캐시가 남은 16GB VRAM 홀짝. 32K 컨텍스트? 식은 죽 먹기.

의심? 직접 돌려봐. 전기계량기 돌면 나 탓 마.

기업 홍보 검증. 구글 Gemma 오픈소스화로 ‘AI 민주화’. 그래. Vertex AI 세게 밀면서. 이 로컬 속도? 자기 클라우드 피치 깎아먹음. 우발적 반란?

버그 픽스는 허세 아님. 프로덕션 코드. 내 스타일 딱. 90% 그대로 머지 가능.

한계? 있지. 복잡 체인 약함. K8s 구석진 부분에서 할루시네이션. 하지만 반복—프롬프트 더 잘, 모델 체인. 도구지 신 아님.

어두운 면: 아직 GPT-4o는 아냐

트위스트에서 얕은 추론. 생각 중간 토큰 절벽. 파인튜닝? GGUF가 쉬움.

내 주장: 로컬 AI가 하루아침에 장난감에서 팀원으로. 내 리그 ShadowStack—중간 클라우드보다 지연과 비용 앞섬.

역사적 비유? ‘95년 리눅스 커널 패치. 거칠고 날것. 하지만 스택 소유. Gemma 4가 코드 생성 그거다.


🧬 관련 인사이트

자주 묻는 질문

Gemma 4가 뭔데, 어떻게 배포하나?

구글 오픈 MoE 모델, 26B 파라미터. K8s나 베어메탈에 llama.cpp로 배포. 지원 위해 HEAD 빌드. 속도 위해 Q4_K_M GGUF 써.

RTX 4090 같은 가성비 GPU에서 Gemma 4 속도는?

듀얼 5060 Ti 싱글 리퀘스트 96 tok/s. 싱글 4090이면 60-80 예상. MoE 효율이 데ンス 모델 압살.

Gemma 4가 실제 프로덕션 버그 고칠 수 있나?

네, K8s GPU 스케줄링이나 엔드포인트 누수 같은 직선 문제. 초 만에 머지 준비 코드 생성. 복잡 로직? 인간 손질 필요.

Priya Sundaram
Written by

Hardware and infrastructure reporter. Tracks GPU wars, chip design, and the compute economy.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by dev.to