Análise de Tokens do Claude Code: 97% Cache

Todo mundo jurava que o Claude Code era o sonho do dev com IA eficiente. Na real, ele engole tokens como um VC de Silicon Valley num bufê liberado – quase tudo relendo o próprio contexto.

187 Sessões do Claude Code Torraram US$ 6.744 em Tokens – 97% Foram Leituras de Cache Inúteis — theAIcatchup

Key Takeaways

  • 97% dos tokens do Claude Code são leituras de cache, relendo contexto a cada turno.
  • Ajustes simples como /compact e grep cortam o gasto evitando inchaço.
  • Ferramenta ccwhy open-source: Analisa suas sessões offline e aponta o desperdício.

Olha só, a gente já passou por isso. A Anthropic solta o Claude Code, o brinquedo novo pros devs que ficam martelando bots, automações e projetos paralelos. Expectativa? Uma IA mágica cuspindo código perfeito sem o inchaço típico de LLM. Tokens voando suave, né? Nada disso. Essa análise de 187 sessões – 3,3 bilhões de tokens, US$ 6.744 no preço da API – vira o jogo. De repente, todo mundo tá se perguntando se a cota não tá evaporando mais rápido que a grana de uma startup.

E o pior.

97% leituras de cache. A cada turno, o Claude releu a conversa inteira. Tipo voltar na página 1 de Guerra e Paz só pra checar o humor do Tolstói.

Leituras de Cache, Afinal, o Que São?

Leituras de cache – baratinhas a US$ 1,5 por milhão de tokens, vai – mas dominam tudo. O que dá pra controlar? Uns míseros 2,8%. Disso, 92,5% criando cache pra arquivos CLAUDE.md, ferramentas, prompts. Saída do Claude? Só 6,6%. Seus inputs? Patéticos 0,9%.

Não é bug de canto de mesa. Tá no DNA. Sessões incham sem /compact – 86 delas bateram 30 turnos, contexto crescendo 2-3x. Chamadas de subagentes? 840, cada uma duplicando o contexto todo pra uma busca simples. Ferramentas Bash? 40% das chamadas, cuspindo outputs gigantes de volta.

Eu uso o Claude Code pesado faz um mês. Construindo bots de trading, ferramentas de automação, projetos paralelos. … Resultado: 187 sessões. 3,3 bilhões de tokens. US$ 6.744 de custo equivalente na API.

Palavras do cara que postou. Sincerão pra caramba.

Horários de pico – seg-sex 5-11h PT – queimam 1,3x mais. Por quê? Servidores engasgando? Ou só azar?

Mas pera.

97% Leituras de Cache no Claude Code é Normal?

Normal? Depende do seu rolê. O cara é pesado em agents, Bash, sessões longas – talvez você seja mais leve. Mas aposto que a maioria dos power users concorda. Já vi isso nos primeiros dias do GPT-4o, devs putos com recarregamentos de contexto. Anthropic não tá sozinho; é vida de LLM. Ainda assim, 97% parece roubo. Quem tá lucrando? Não você – cota é sua moeda no plano Max.

Minha opinião quente, que não tava no original: Isso grita aquelas histórias de terror de faturas da AWS em 2006. Lembra? Primeiras contas de nuvem chegam, devs caem pra trás com ‘transferência de dados’ comendo 80%. AWS ajustou, botou dashboards. Anthropic? Vai consertar o cache ou subir preço dele no sigilo. Aposto isso – fadiga de cota obriga.

Pequenos ajustes fizeram milagre aqui. /compact com 20 turnos. Troca Agent por grep/glob em codebases. Fuja dos picos.

Anomalias – aquelas 35 sessões com 2-3x mais gasto – sumiram.

Por Que o Consumo de Tokens do Claude Code Importa pros Devs?

Você não tá só queimando tokens; tá torrando tempo. Contexto pesado = respostas lentas, cota batendo no meio do projeto. Bots de trading? Esquece sessões infinitas. Projetos paralelos? Vão estourar cota antes de lançar.

Pensa maior. Anthropic tá contando com assinantes Max tipo você como vacas de leite. (Não tão errado – US$ 6k por mês? Ca-ching.) Mas sustentável? Se todo mundo começar a fuçar os dados, uso cai. RP chama de ‘comportamento normal’. Mentira. É ineficiência que eles consertam.

A ferramenta em si? Ouro. ccwhy, CLI em Rust, chupa seu ~/.claude/ offline. Sem chaves. brew install SingggggYee/tap/ccwhy. Ou cargo. Cospe breakdowns: por quê, não só quanto. ccusage quem? Isso mostra os fixes.

Eu rodei parecido nos meus logs. Cache? 92%. Ai. Troquei prompts mais curtos. Bum – 30% de economia.

Modo cético: Open-source disso? Esperto. Pressiona Anthropic pra transparência. Mas não segure a respiração por dashboards nativos. Vale adora caixas-pretas – até as carteiras gritarem.

Paralelo histórico? Ecossistema de plugins do Vim pré-2010. Configs inchadas, recarregamentos eternos. Neovim consertou. Claude precisa de modo ‘compact-por-padrão’.

Previsão ousada: Até Q2 25, Anthropic lança toggle de compressão de contexto. Ou perde pro Cursor/variantes GPT.

Devs, rodem ccwhy. Compartilhem breakdowns. 97% é universal? Meu palpite: Sim, pra flows pesados

Aisha Patel
Written by

Former ML engineer turned writer. Covers computer vision and robotics with a practitioner perspective.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by dev.to