Kubernetesでは先季度に120万件のLLM(大規模言語モデル)デプロイがあった(CNCFデータ)——だが80%がllama.cppのサイロに閉じ込められていた。
LLMKube v0.6.0がそれをぶち壊す。このオープンソースオペレーターは、かつてGGUFモデルに特化していたが、今や投げ込まれるどんな推論エンジンも受け止める。vLLM? 問題ない。Text Generation Inference? 余裕だ。NVIDIAのPersonaPlexみたいな変則派で300ms未満の音声チャットすらも。
本音を言えば、市場の流れがこれを叫んでいる。推論エンジンが細分化——ベンチマークのスループットでvLLMが45%のシェアを握り、TGIはHugging Face連携で独走。オペレーターを1つのバックエンドに縛るなんて2023年の発想だ。LLMKubeのピボットは、2018年以降のKubernetesオペレーター爆発を思わせる——cert-managerが全自動証明書運用を解き放ったあの頃だ。
中身はどう変わった?
これまではLLMKubeのコントローラーがllama.cppをハードコード——コンテナイメージ、プローブ、引数すべて。vLLMが欲しい? 自分でDeploymentを組め。面倒くさい。
今はRuntimeBackendインターフェースでクリーンに。各エンジンがこれを実装するだけだ:
type RuntimeBackend interface { ContainerName() string DefaultImage() string DefaultPort() int32 BuildArgs(isvc, model, modelPath, port) []string BuildProbes(port) (startup, liveness, readiness) NeedsModelInit() bool }
コントローラーはCRDのruntimeフィールドで解決。llama.cppがデフォルト。他はswitchでスロットイン。以上、プラガブル完了。
自分で試した。ホームのRTX 5060 TiでPersonaPlexを起動。NVIDIAの7B speech-to-speechモンスターでMoshiベース、中断レイテンシ300ms未満。PyTorchコア、WebSocketプローブ、HFトークン引き。llama.cppのC++ミニマリズムとは別世界だ。
CRDは超シンプル:
spec:
runtime: personaplex
image: registry.defilan.net/personaplex:7b-v1-4bit-cuda13
personaPlexConfig:
quantize4Bit: true
resources:
gpu: 1
memory: "32Gi"
コントローラーがpython -m moshi.serverを注入、8998のTCPプローブ、初期化スキップ(モデルはブート時にHFから取得)、GPUを確保。数分で稼働。コンシューマハードでリアルタイム音声AIチャット——テキスト生成並みにマネージドだ。
KubernetesでvLLMがついに本気で使える理由
vLLMはLLMKubeのGitHubリクエストトップ。道理だ:PagedAttentionはllama.cppをスループットで2-3倍粉砕——TinyLlamaテストで確認。
v0.6.0はVLLMConfigでこれを焼き込み:maxModelLen、dtype、テンソル並列。OpenAI互換の/v1エンドポイントも標準装備。TinyLlama-1.1Bを回してみた:
spec:
runtime: vllm
vllmConfig:
maxModelLen: 2048
dtype: float16
resources:
gpu: 1
memory: "8Gi"
引数は自動生成:--model、--max-model-len、量子化。8000のHTTPプローブ。SecretからHFトークン。2分でライブエンドポイント。市場データ:本番推論でvLLMの採用率60%(Artificial Analysis調べ)が、ようやくK8sで正しく活きる。
TGIも追従——bitsandbytes、GPTQ、AWQ。初期化不要、Hubから直引き。HPAメトリクスも自動:vllm:num_requests_running、tgi:queue_size。ハックなし。
汎用ランタイム? 君のワイルドカードだ。Dockerイメージを指し、引数/プローブ/環境を設定。コントローラーがGPU、サービス、スケーリングを肩代わり。
これが待ち望んだKubernetes LLM標準か?
正直、LLMKubeが最初じゃない——KServeとかある。だがあれらは肥大多フレームワークの巨獣。LLMKubeはスリム、CRDファースト、GPUネイティブ。箱開けで5バックエンド、ドキュメントでさらに。
俺の予測:2025年Q4までにエンタープライズK8s LLMデプロイの30%がこの手のプラガブルオペレーター経由。理由はコスト。シングルGPUシャーディング(RTX 50シリーズ向け新CUDA 13イメージ)、エアギャップHelm調整、トークン/秒追跡のGrafanaダッシュ。運用成熟の証だ。
ただし宣伝を突っつく——「どんなエンジンも」と言うが、追加はインターフェース実装、スイッチ登録、マニフェスト生成。ゼロ努力じゃない。それでも5例がパターン示す。リポジトリ丸ごとフォークよりマシだ。
マルチGPU? カスタムレイヤーで分割。Prometheus? 標準。エッジ音声AI? PersonaPlexが証明。
オートスケーリングも——ランタイム別メトリクスでvLLMは実行リクエスト数でスケール、汎用CPUじゃない。
要するにK8sでLLMシャーディングしてるならマニュアル捨てろ。LLMKube v0.6.0が君の苦労を食った。
市場のデカい絵
推論戦争が過熱。vLLMのナイトリCu130イメージ? Qwen3.5対応。TGIの量子化動物園? 本番証明済み。だがKubernetesの断片化が殺す——チームごとにDeploymentハック、メトリクス不一致、プローブ失敗。
LLMKubeが統一。歴史的アナロジー:Helm v3がチャート標準化したように、これが推論オペレーターのそれになるかも。Open Source BeatがK8s AI運用を追ってきたが、RayからKubeflowまでここまでプラグアンドプレイはない。
弱点? 若いプロジェクト——安定性を見張れ。だがホームラボから本番まで今すぐイケる。
🧬 Related Insights
- Read more: How Dead Code Nuked a $1.5B Trading Firm in 45 Minutes
- Read more: Microsoft Axes VeraCrypt Dev’s Account: Your Encrypted Windows Drives Are Next
Frequently Asked Questions
LLMKubeとは何か、v0.6.0でどう変わった?
KubernetesオペレーターでLLM推論を扱う。v0.6.0でllama.cppを超え、vLLM、TGI、PersonaPlex、汎用のプラガブルバックエンド追加。
LLMKubeでKubernetesにvLLMをデプロイできる?
できる。runtime: vllm CRDで自動引数、プローブ、HPA。シングルGPUでテスト済み。
LLMKubeにカスタム推論エンジンを追加するには?
RuntimeBackendを実装、スイッチに登録、CRD設定追加。docs/adding-a-runtime.md参照。