MCP Code Mode: сокращение накладных расходов на токены на 90%

MCP обещал соединить AI-агентов с реальными системами. Вместо этого он стал монстром, пожирающим токены. Более умный подход — программное вызывание инструментов с песочницами — наконец-то это исправляет.

Хватит предзагружать все API: как Code Mode решает проблему траты токенов в MCP — theAIcatchup

Key Takeaways

  • Традиционный MCP тратит 55K-134K токенов на предзагрузку неиспользуемых определений API; Code Mode исключает это, вызывая инструменты по требованию
  • Code Mode генерирует исполняемый Python-код для вызовов API и запускает его в изолированных окружениях типа OpenSandbox, улучшая безопасность и эффективность
  • Для предприятий со сотнями API, Code Mode даёт ~90% сокращение контекста, но добавляет латентность и сложность; оценивайте исходя из реальных накладных расходов токенов

У MCP есть реальная проблема с токенами.

Традиционные реализации Model Context Protocol буквально кровоточат деньги. Прежде чем AI-агент вообще начнёт решать задачу, он уже потратит 55 000 токенов только на описание доступных API. В некоторых корпоративных установках Anthropic этот показатель достигает 134 000 токенов чистых накладных расходов. Это не эффективность. Это налог на каждый запрос.

Проблема банально проста: система загружает все определения инструментов с самого начала, независимо от того, будет ли их использовать агент. Все 58 инструментов из GitHub, Slack, Sentry, Grafana и Splunk сваливаются в контекстное окно модели огромными JSON-полезными нагрузками. Большинство из них не имеют отношения к текущей задаче. Никого это не волнует.

“Традиционные реализации MCP часто инжектируют большие JSON-полезные нагрузки в контекст модели, что увеличивает потребление токенов и снижает эффективность.”

Вот тут и появляется Code Mode. И он полностью меняет игру.

Что на самом деле отличается в Code Mode?

Code Mode не загружает определения инструментов заранее. Вместо этого он позволяет модели генерировать код, который вызывает инструменты по требованию. LLM ищет в реестре доступные API, подтягивает схему только для нужного, пишет Python-код для вызова правильного endpoint’а и выполняет этот код в изолированной среде. Результат возвращается. Дело сделано.

Прирост эффективности очевиден: без раздувания контекста, без риска галлюцинаций от неуместных описаний инструментов и значительно меньше потребления токенов. Но настоящая идея, о которой никто не говорит? Этот подход меняет размер контекстного окна на интеллект выполнения. Модель не просто описывает, что она может сделать — она это делает.

А для этого нужна песочница.

Почему нельзя просто выполнить код LLM напрямую

Вот здесь врезает суровая реальность. Позволить AI-модели генерировать произвольный Python и запускать его на боевом сервере — это прямой путь к компрометации. Доступ к файлам. Неправильное использование сети. Повышение привилегий. Захват системы.

OpenSandbox — платформа с открытым исходным кодом от Alibaba, теперь включённая в CNCF Landscape — решает это, создавая изолированное окружение для выполнения. Сгенерированный Python-код работает внутри контейнера с ограниченным доступом к файловой системе, контролем сети, лимитами ресурсов и изоляцией процессов. Песочница действует как защитный ров между намерениями модели и вашей фактической инфраструктурой.

Это не паранойя. Это архитектура.

Поток выглядит так: при запуске система обнаруживает все доступные OpenAPI-спецификации и загружает их в реестр. Приходит запрос. Система ищет релевантные инструменты по метаданным. LLM проверяет схему выбранного инструмента через get_schema. Модель генерирует Python-код, правильно вызывающий endpoint. Этот код отправляется в песочницу через execute. Песочница запускает его в изоляции, обрабатывает HTTP-запрос к реальной системе и возвращает сырой результат. LLM преобразует это в понятный для человека ответ.

Всё работает на трёх основных инструментах: search, get_schema и execute. Вот и всё.

Это действительно лучше, чем традиционный MCP?

Да. Но с оговорками.

Для предприятий с сотнями API и массивными реестрами инструментов Code Mode исключает налог на токены. 90% сокращение накладных расходов контекста — это не теория, это то, что происходит, когда вы перестаёте предзагружать все определения инструментов. В масштабе это реальная экономия затрат и более быстрый вывод.

Но вот что не попадёт в маркетинговые слайды Anthropic: Code Mode вносит задержку. Дополнительный раунд к песочнице, генерация кода, выполнение и парсинг результата занимают время. Для приложений, чувствительных к латентности, традиционный MCP — несмотря на весь его раздутость — может быть быстрее, если вы постоянно используете одни и те же инструменты.

Кроме того, не каждому окружению нужна такая уровень оптимизации. Если вы используете узкий набор API (скажем, пять инструментов, потребляющих всего 15K токенов), инженерная сложность песочниц и динамического вызова инструментов может быть не оправдана.

Общая картина: эффективность контекста как компетенция

Что интересно, это не просто оптимизация MCP. Это паттерн. По мере того как модели становятся больше, а контекстные окна расширяются, появляется соблазн закидывать всё в контекст. Anthropic фактически говорит: прекратите это делать. Будьте намеренны в том, что видит модель.

Code Mode заставляет эту намеренность. Вы больше не можете ленивo-загружать 100 определений инструментов. Вы должны думать об обнаружении, релевантности и том, что модели действительно нужно для решения задачи.

Это важно, потому что размер контекстного окна — это метрика тщеславия. Реальная эффективность — это отношение сигнала к шуму. И Code Mode это отношение драматически улучшает.

Для .NET и C# разработчиков, реализующих это в корпоративных системах (что исследовал автор оригинальной статьи), этот паттерн стоит изучить. Основной принцип — генерировать исполняемый код вместо инжекции статических определений — масштабируется за пределами API. Это может переформатировать то, как агенты взаимодействуют с базами данных, инфраструктурой и внутренними инструментами.

Вопрос OpenSandbox

Ещё одно: OpenSandbox относительно нов для большинства разработчиков. Это качественный продукт (одобрен CNCF, многоязычные SDK, поддержка Docker/Kubernetes), но массовое внедрение ещё не началось. Если вы внедряете Code Mode в production, вы делаете ставку на платформу, которая ещё строит свою экосистему.

Это не косяк. Это просто реальность.

Победа здесь настоящая: MCP без траты токенов, вызывание инструментов, которое фактически выполняется, и паттерн песочницы, который не жертвует безопасностью ради скорости. Но реализация требует больше инфраструктуры, чем традиционный MCP. Это правильное решение неправильной проблемы, если вы сами не столкнулись с проблемой траты токенов.


🧬 Связанные материалы

Часто задаваемые вопросы

Работает ли Code Mode со всеми API? Пока у API есть OpenAPI-спецификация и доступ по HTTP, Code Mode может обнаружить, проверить схему и вызвать её. Песочнице нужно настроить правила исходящего трафика для доступа к целевым системам.

Заменит ли Code Mode мою существующую MCP-установку? Не обязательно. Если ваш реестр инструментов небольшой и потребление токенов не является узким местом, миграция на Code Mode добавляет сложность без выгоды. Оценивайте исходя из фактических накладных расходов токенов и требований к латентности.

Готов ли OpenSandbox к использованию в production? Да — он в CNCF Landscape и поддерживает корпоративное развёртывание на Docker/Kubernetes. Но зрелость экосистемы и поддержка сообщества пока не на уровне мейнстримовых инструментов.

Aisha Patel
Written by

Former ML engineer turned writer. Covers computer vision and robotics with a practitioner perspective.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by Dev.to