Вы в разгаре четвёртого квартала, пялитесь на счёт от AWS. Шестизначный. Улетел. За что? За то, что стучитесь в API OpenAI, как отчаянный бывший.
Self-hosting ИИ в 2026-м меняет правила игры — или нет? TCO падает на 55%. Задержка 18 мс. Open source стек плюёт на привязку к облаку. Звучит заманчиво. Но давайте проткнём этот пузырь, прежде чем вы спустите корпоративную карту на H100.
Когда облачный счёт переваливает за шесть цифр
70–90% затрат на ИИ? Инференс, а не обучение. Стэнфорд чётко зафиксировал это в отчёте 2023-го.
70–90% операционных затрат на ИИ приходится на инференс, а не на обучение.
Облачные GPU по $32 в час? Умножьте на аптайм. Бум — годовой кошмар. API берут плату за токен, и цены ползут вверх бесконечно. Объёмы не щадят.
Self-hosting? Аппаратуру покупаешь раз. Тюнишь бесконечно. IDC обещает 55% экономии через 18 месяцев для крупных моделей. Ладно. Но предоплата? Аукается.
Облачный тройной удар: инфраструктура $420K за 18 месяцев (пушки p4d.24xlarge), инференс $380K (привет, OpenAI), инженерия $60K. Итого: $860K.
Self-hosting в ответ: $180K на железо (кластер из 4x H100), $45K на инференс (ваше собственное), $120K на инженерию (теперь вы — ops-команда). $345K. Экономия стартует после 12-го месяца. До того облако выигрывает у лентяев.
Вот в чём дело — затраты на инженерию? Занижены. Кто будет отлаживать vLLM в три ночи?
Задержка: 18 мс или никак
Self-hosted H100? 18 мс. Облачные API? 350 мс мытарки. Инстансы AWS? 180 мс. A100 выжимают 45 мс.
В 19 раз быстрее. Без сетевой лотереи, без соседей, крадущих циклы. Напрямую: приложение к GPU.
Goldman Sachs срезал задержку на 40% в своих стенах для трейдинга. Mayo Clinic? On-prem для диагностики. Реал-тайм требует.
Но — батчевые задачи? Оффлайн-кранч? Облако сносно тянет 500+ мс. Ночные отчёты не self-hostьте.
Зачем self-hosting ИИ в 2026-м?
Сначала математика окупаемости. H100: $30–40K за штуку. Кластер 4 GPU: $160K. Ops: $10K/месяц (электричество, пот).
Облако: $23K/месяц нон-стоп. Окупаемость на 9-м месяце. К 24-му? $280K в кармане. Загрузка выше 50%? Вперёд. Ниже 30%? Оставайтесь в облаке.
Драйверы: приватность (67% фирм ЕС в панике от утечек — GDPR, HIPAA). Затраты (линейный ад). Open source (45% бегут от lock-in). Задержка. Кастомизация.
Облака крутят PR: «Масштабируемо!» Ага, масштабируемо дорого.
Моё мнение? Это эхо краха мейнфреймов 80-х. IBM всё держал — пока не хлынули PC. Self-hosting ИИ? Ваш мини-мейнфрейм в дата-центре. Облачные гиганты ответят ценовыми войнами к 2027-му. Держу пари.
Open source стек, который (почти) заменяет облако
vLLM впереди. Жемчужина Беркли 2023-го: пропускная способность в 2–4 раза выше. Но базовая версия хромает — давайте доукомплектуем.
Добавьте Ray Serve для масштаба. Triton Inference Server для мультимодельного цирка. KServe для мозгов Kubernetes. Ollama для быстрых локальных тестов (не в прод).
Соберите: vLLM на Ray, обёрнутый в Triton, развёрнутый через KServe. Open-модели вроде Llama 3.1. Квантизуйте до 4-бит — выжмете больше.
Скепсис? Инструменты дозревают, но кластеры ломаются. Скачки напряжения. Баги драйверов. Привязка к CUDA от Nvidia (ирония для open source?).
Настоящий выигрыш: без лимитов запросов. Без сборов за трафик. Дообучайте без просьб.
А эти 55% TCO реальны для вашей команды?
55% через 18 месяцев. При стабильной нагрузке. А если хайп вокруг ИИ сдуется? Железо устареет — H100 к 2028-му в помойку?
Инженерный всплеск до $120K? Занижено. Нанимайте DevOps-волшебника. Или аутсорс — и привет, облачные затраты.
Прерывистая нагрузка? Облако. Высокопроизводительный реал-тайм? Self-hosting. Трейдинг-боты, чат-агенты, диагностика — да.
Прогноз: к 2026-му рулит гибрид. Self-hosting для ядра, облако для пиков. Чистый self? Для одержимых.
Компании бегут от ловушек вендоров. Linux Foundation: 45% выбирают open source. Умно.
Но облако не умерло. Оно эволюционирует — спот-инстансы подешевеют.