Desglose de tokens en Claude Code: 97% caché

Anoche, clavado en mi terminal, desmenuzando 187 sesiones de Claude Code que se fumaron 6.744 dólares en tokens. Resulta que casi todo es Claude releyendo su propia tarea.

Me quemé 6.744 dólares en sesiones de Claude Code: el 97% en lecturas de caché, no en código — theAIcatchup

Key Takeaways

  • El 97% de tokens en Claude Code va a lecturas de caché, dejando el control real en un 2,8% mísero.
  • Trucos como /compact y grep en lugar de Agent barrieron anomalías de inmediato.
  • ccwhy lo revela todo: código abierto, offline, cambia las reglas para facturas de IA.

Café frío sobre el escritorio, pantalla brillando con logs parseados de ~/.claude/ —ahí lo vi clarito: 187 sesiones, 3.300 millones de tokens, unos 6.744 dólares en humo.

El consumo de tokens en Claude Code no es lo que parece. Todos hemos caído: encendiendo el agente de codificación de Anthropic para bots, automatizaciones o proyectos paralelos, creyendo que es pura magia eficiente. Pero este análisis a fondo —armado con un CLI en Rust llamado ccwhy— destapa la verdad.

Y la cruda realidad tras 20 años siguiendo los ciclos de hype del Valle: Anthropic se embolsa fortunas con lecturas de caché, mientras tú ajustas costumbres para no acabar en la ruina.

Por qué la factura de tokens de Claude Code te pilla desprevenido

97% lecturas de caché. En cada turno, Claude relee todo el contexto de la conversación, como si volviera a la página uno de Guerra y paz con cada párrafo. El caché es barato, sí, 1,5 dólares por millón de tokens, pero lo domina todo.

¿Lo que puedes controlar? Un ridículo 2,8%. Desglosado: 92,5% creación de caché (archivos CLAUDE.md, herramientas MCP, prompts del sistema), 6,6% salida de Claude, 0,9% tu entrada. Eso es lo tuyo: una migaja.

Llevo un mes dándole caña a Claude Code. Bots de trading, herramientas de automatización, proyectos secundarios. Sabía que gastaba tokens a lo bestia, pero nunca miré los números.

Este dev tampoco, hasta que llegó el CLI. Ahora de código abierto —brew install SingggggYee/tap/ccwhy o cargo install. Funciona offline, sin claves. Te dice por qué, no solo cuánto como hace ccusage.

Horas pico (lunes a viernes 5-11 am PT) se zampaban 1,3 veces más tokens. ¿Herramientas Bash? 40% de las llamadas, metiendo outputs larguísimos de vuelta. ¿Subagentes? 840 invocaciones, cada una duplicando el contexto entero para búsquedas tontas.

86 sesiones se inflaron más allá de 30 turnos sin /compact, con el contexto hinchándose 2-3 veces. 35 anomalías al doble o triple de gasto. ¿Te suena?

¿Es normal que Claude Code gaste 97% en lecturas de caché?

Quizá para usuarios intensivos. ¿Pero sostenible? Mi visión única, sacada de la debacle dot-com: ¿recuerdan las tarifas de transferencia de datos tempranas de AWS? Devs armaban imperios en EC2 y luego les caía el mazazo de los costos de egreso que nadie vio venir. El caché de Claude es el impuesto oculto de hoy —Anthropic cuenta con que no parses ~/.claude/.

Apuesto: en un año, lanzan compresión de contexto más lista, o los usuarios saltan a modelos abiertos como Llama. ¿Quién gana de verdad? Tú no, frente a tus facturas.

Las correcciones post-análisis funcionaron. /compact cada 20 turnos. Olvídate del Agent para grep/glob en codebases. Pasa los trabajos pesados a horas valle. Anomalías desaparecidas.

Pero divaguemos un poco: he visto herramientas así antes. En 2010, los logs de Heroku revelaban que el sueño de dynos malgastaba; los devs lo scriptaron. Misma onda. Claude Code es potente, vale, pero crudo sin escrutinio.

¿Dominio de Bash? Brutal. Pipear outputs completos de comandos al contexto, ¿para qué? Las herramientas deberían resumir, no vomitar todo. ¿Subagentes duplicando contexto? Hora de aficionados. Da la sensación de que Anthropic priorizó velocidad sobre inteligencia, cobrando por tu despiste.

¿Quién se lucra con tus hábitos en Claude Code?

Anthropic, por supuesto. El plan Max amortigua (costo API equivalente, no tu cuenta), pero los patrones gritan ineficiencia. Subsidias su infra mientras persigues productividad.

Mira, he cubierto todas las olas de IA: Watson, GPT-3, ahora esto. Verdad sin buzzwords: optimizar tokens es el nuevo devops. ccwhy es tu SRE para facturas de IA.

¿Compartiste tus desgloses? Comentarios inundados de “mi caché también es 95%”. ¿Normal? Por ahora. Pero espera el spin de PR de Anthropic: “¡El caché hace la magia!”. Sí, y el egreso construyó la nube.

Cambios pequeños, ahorros grandes. Ese 0,9% de entrada: afina prompts al hueso. Salida al 6,6%: guía a Claude hacia la brevedad.

Una sesión an

Priya Sundaram
Written by

Hardware and infrastructure reporter. Tracks GPU wars, chip design, and the compute economy.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by dev.to