MCP Code Mode: Reduce la Sobrecarga de Tokens en un 90%

MCP prometía conectar agentes de IA con sistemas reales. En cambio, se convirtió en un derrochador de tokens. Un enfoque más inteligente —invocación de herramientas programática con sandboxes— finalmente lo soluciona.

Deja de Precargar APIs: Cómo Code Mode Soluciona el Desperdicio de Tokens en MCP — theAIcatchup

Key Takeaways

  • MCP tradicional desperdicia 55K-134K tokens precargando definiciones de APIs sin usar; Code Mode elimina esto invocando herramientas bajo demanda
  • Code Mode genera código Python ejecutable para llamadas de API y lo ejecuta en entornos aislados como OpenSandbox, mejorando seguridad y eficiencia
  • Para empresas con cientos de APIs, Code Mode entrega ~90% de reducción de contexto, pero añade latencia y complejidad; evalúa basándote en tu sobrecarga de tokens real

El problema de tokens en MCP es real.

Las implementaciones tradicionales del Model Context Protocol están quemando dinero. Antes de que tu agente de IA siquiera empiece a resolver un problema, ya ha consumido 55.000 tokens solo describiendo qué APIs existen. En Anthropic, algunos montajes empresariales llegan a 134.000 tokens de pura sobrecarga. Eso no es eficiencia. Es un impuesto en cada solicitud.

El problema es ridículamente simple: el sistema carga cada definición de herramienta de antemano, sin importar si el agente realmente la usará. Las 58 herramientas de GitHub, Slack, Sentry, Grafana y Splunk se vuelcan en la ventana de contexto del modelo como enormes cargas JSON. La mayoría son irrelevantes para la tarea actual. Nada de esto importa.

“Las implementaciones tradicionales de MCP a menudo inyectan grandes cargas JSON en el contexto del modelo, lo que aumenta el consumo de tokens y reduce la eficiencia.”

Aquí es donde entra Code Mode. Y cambia completamente la ecuación.

¿Qué es Diferente Realmente en Code Mode?

Code Mode no carga definiciones de herramientas de antemano. En cambio, permite que el modelo genere código que invoque herramientas bajo demanda. El LLM busca en un registro de APIs disponibles, extrae el esquema solo de lo que necesita, escribe código Python para invocar el endpoint correcto, y ejecuta ese código en un entorno aislado. El resultado regresa. Listo.

La ganancia de eficiencia es obvia: sin inflación de contexto, sin riesgo de alucinaciones por descripciones de herramientas irrelevantes, y consumo de tokens dramáticamente menor. Pero la verdadera perspectiva que nadie está mencionando, ¿cambios de la ventana de contexto por inteligencia de ejecución. El modelo no solo está describiendo lo que podría hacer—está realmente haciéndolo.

Y eso requiere un sandbox.

Por Qué No Puedes Simplemente Ejecutar Código de LLM Directamente

Aquí es donde llega la realidad incómoda. Permitir que un modelo de IA genere Python arbitrario y lo ejecute en tu servidor de producción es un camino rápido hacia el compromiso. Acceso a archivos. Abuso de red. Escalada de privilegios. Toma del sistema.

OpenSandbox —la plataforma de código abierto de Alibaba ahora listada en el CNCF Landscape— resuelve esto creando un entorno de ejecución aislado. El código Python generado se ejecuta dentro de un contenedor con acceso al sistema de archivos restringido, controles de red, límites de recursos e aislamiento de procesos. El sandbox actúa como un foso entre las intenciones del modelo y tu infraestructura real.

Esto no es paranoia. Es arquitectura.

El flujo se ve así: el startup descubre todas las especificaciones OpenAPI disponibles y las carga en un registro. Llega una solicitud. El sistema busca herramientas relevantes por metadatos. El LLM inspecciona el esquema de la herramienta seleccionada vía get_schema. El modelo genera código Python que invoca correctamente el endpoint. Ese código se envía al sandbox a través de execute. El sandbox lo ejecuta en aislamiento, maneja la solicitud HTTP al sistema real, y devuelve el resultado sin procesar. El LLM lo convierte en una respuesta legible para humanos.

Tres herramientas principales lo hacen funcionar: search, get_schema, y execute. Eso es todo.

¿Es Esto Realmente Mejor que MCP Tradicional?

Sí. Pero con salvedades.

Para empresas con cientos de APIs y registros de herramientas masivos, Code Mode elimina el impuesto de tokens. Una reducción del 90% en sobrecarga de contexto no es teórica—es lo que sucede cuando dejas de precargar cada definición de herramienta. A escala, eso es un ahorro de costo real e inferencia más rápida.

Pero aquí está lo que no aparecerá en los comunicados de marketing de Anthropic: Code Mode introduce latencia. Un viaje extra al sandbox, generación de código, ejecución y análisis de resultados toma tiempo. Para aplicaciones sensibles a la latencia, MCP tradicional —tan inflado como es— podría ser más rápido si estás usando las mismas herramientas repetidamente.

Además, no todos los entornos necesitan este nivel de optimización. Si estás ejecutando un conjunto estrecho de APIs (digamos, cinco herramientas consumiendo 15K tokens en total), la complejidad de ingeniería del sandboxing e invocación dinámica de herramientas podría no valer la pena.

La Perspectiva Mayor: Eficiencia de Contexto como Competencia

Lo interesante es que esto no es solo optimización de MCP. Es un patrón. Conforme los modelos se hacen más grandes y las ventanas de tokens se expanden, la tentación es metirlo todo en el contexto. Anthropic esencialmente está diciendo: deja de hacer eso. Sé intencional sobre lo que el modelo ve.

Code Mode fuerza esa intencionalidad. No puedes cargar perezosamente 100 definiciones de herramientas más. Tienes que pensar en descubrimiento, relevancia, y qué necesita realmente el modelo para resolver el problema en cuestión.

Esto importa porque el tamaño de la ventana de contexto es una métrica de vanidad. La eficiencia real se trata de la relación señal-ruido. Y Code Mode mejora eso dramáticamente.

Para desarrolladores de .NET y C# implementando esto en entornos empresariales (que el autor original ha estado investigando), el patrón vale la pena estudiar. El principio subyacente—generar código ejecutable en lugar de inyectar definiciones estáticas—escala más allá de APIs. Podría remodelar cómo los agentes interactúan con bases de datos, infraestructura y herramientas internas.

La Cuestión de OpenSandbox

Una última cosa: OpenSandbox es relativamente nuevo para la mayoría de los desarrolladores. Es sólido (aprobado por CNCF, SDKs multilenguaje, soporte Docker/Kubernetes), pero la adopción no es mainstream aún. Si estás implementando Code Mode en producción, estás apostando a una plataforma que aún está construyendo su ecosistema.

Eso no es un impedimento. Es solo una verificación de realidad.

La victoria aquí es real: MCP sin desperdicio de tokens, invocación de herramientas que es realmente ejecutable, y un patrón de sandbox que no sacrifica seguridad por velocidad. Pero la implementación requiere más infraestructura que MCP tradicional. Es la solución correcta para el problema equivocado si no estás enfrentando el problema de sobrecarga de tokens tú mismo.


🧬 Perspectivas Relacionadas

Preguntas Frecuentes

¿Code Mode funciona con todas las APIs? Siempre que la API tenga una especificación OpenAPI y sea accesible vía HTTP, Code Mode puede descubrirla, inspeccionar su esquema e invocarla. El sandbox necesita que se configuren reglas de egreso de red para alcanzar tus sistemas objetivo.

¿Reemplazará Code Mode mi configuración de MCP existente? No necesariamente. Si tu registro de herramientas es pequeño y el consumo de tokens no es un cuello de botella, migrar a Code Mode añade complejidad sin beneficio. Evalúa basándote en la sobrecarga de tokens real y requisitos de latencia.

¿Es OpenSandbox listo para producción? Sí—está en el CNCF Landscape y soporta despliegue empresarial en Docker/Kubernetes. Pero la madurez del ecosistema y el soporte comunitario no están al nivel de herramientas mainstream aún.

Aisha Patel
Written by

Former ML engineer turned writer. Covers computer vision and robotics with a practitioner perspective.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by Dev.to