Большинство AI-команд всё ещё относятся к production как к школьному проекту.
Эта неудобная истина прозвучала в докладе Рагула Гопала на AWS Student Community Day в Тирупати. Он работает Data Scientist’ом и AWS Community Builder’ом, и задал вопрос, который должен заставить бессонной ночью проснуться каждого ML-инженера: «AWS даёт нам всё необходимое в одном месте для построения моделей. Но используем ли мы это правильно на production?»
Вот в чём суть — и это критично независимо от того, запускаете ли вы стартап вдвоём или управляете моделями 500 инженеров — расстояние между обучением модели на ноутбуке и её работой в production, точной и масштабируемой, — это не просто разрыв. Это бездна.
Проблема ресторанной кухни
Приготовить хороший обед дома — одно. Управлять ресторанной кухней, которая каждый вечер кормит сотни людей без единой ошибки? Это совсем другое. Нужны инфраструктура, процессы, дисциплина и то, что большинство data scientist’ов ненавидят: операции.
Эту аналогию придумал не я — она из доклада. И это лучший способ понять, почему MLOps, FMOps и LLMOps так критичны прямо сейчас.
Прежде чем углубляться в теорию, Гопал представил чек-лист самооценки, который работает как лакмусовая бумажка готовности к production:
«Хранятся ли признаки вашей модели отдельно и отслеживаются ли корректно? Постоянно ли мониторится модель, чтобы убедиться, что она работает правильно? Есть ли CI/CD пайплайны, которые перемещают код из разработки в pre-production и затем в production?»
Если вы ответили «не совсем» на большинство вопросов — добро пожаловать в клуб. И вот именно на это нацелена модель зрелости.
Что эти аббревиатуры на самом деле означают (и почему это важно)
Разберёмся с жаргоном. Три вложенных слоя, каждый специализированнее.
MLOps — это фундамент. Процесс развёртывания обычных машинных моделей (обнаружение мошенничества, системы рекомендаций, прогнозирование оттока) на production. Отслеживание признаков, хранилища моделей, автоматизированное тестирование, мониторинг. В общем, операции с AI.
FMOps — уровень выше. Foundation models — Claude, Llama, Titan — обучены на терабайтах данных с миллиардами параметров. Эти монстры требуют совсем других операционных стратегий, потому что делают то, чем обычно не занимаются MLOps-модели: генерируют оригинальный контент (текст, изображения, музыку, видео).
LLMOps — самый внутренний слой. Это то, что заставляет работать chatbot’ы, помощники для письма и coding tool’ы на production. По сути, подмножество FMOps, заточенное именно под языковые модели.
Полезная ментальная модель здесь — три концентрических круга. Все три работают по одним и тем же операционным принципам — мониторинг, версионирование, тестирование, развёртывание — просто в разных масштабах и с разными сценариями отказов.
Модель зрелости: где находятся большинство команд
Четырёхуровневая модель зрелости MLOps от Гопала — вот где становится интересно.
Уровень 1 — чистая исследовательская фаза. Data scientist’ы запускают Amazon SageMaker Studio (облачная IDE от AWS), пишут код в VS Code, обучают модели локально. Никакой автоматизации, никакого пайплайна, никакого версионирования — только папка с файлами вроде «model_v2_final_ACTUALLY_FINAL.pkl». Всё делается вручную. Вот где сейчас работает подавляющее большинство команд.
Тех-стек на этом этапе:
- Amazon SageMaker (основная платформа)
- Amazon S3 (хранилище сырых данных)
- AWS Glue (ETL)
- Amazon Athena (SQL-запросы)
- AWS Lambda (триггеры для workflow’ов)
- CodeCommit или GitHub (версионирование)
Но вот что никто вслух не говорит: этот уровень окей для прототипов и PoC. На production это бедствие.
И всё же.
Большинство production-систем застревают здесь. Модели дрейфуют. Проблемы с качеством данных всплывают спустя недели. Только один инженер понимает, как работает пайплайн — и когда он уходит, вместе с ним уходит вся информация.