Décomposition des jetons Claude Code : 97 % cache

On pensait Claude Code le rêve du codeur IA efficace. Erreur : il bouffe les jetons comme un VC de la Silicon Valley à un buffet gratuit – surtout en relisant son propre contexte.

187 sessions Claude Code : 6 744 $ de jetons partis en fumée – 97 % en lectures cache inutiles — theAIcatchup

Key Takeaways

  • 97 % des jetons Claude Code servent à des lectures cache, en relisant le contexte à chaque tour.
  • Astuces simples comme /compact et grep divisent la conso en évitant le bloat.
  • Outil ccwhy open source : analyse vos sessions en offline pour traquer les gaspillages.

On est tous passés par là. Anthropic sort Claude Code, le nouveau joujou brillant pour les devs qui codent des bots, des automatisations, des side projects. Attentes ? Une IA magique qui crache du code parfait sans les gonflements habituels des LLM. Des jetons qui filent doux, non ? Que nenni. L’analyse de ce type sur 187 sessions – 3,3 milliards de jetons, soit 6 744 $ aux tarifs API – renverse la table. Du coup, tout le monde se demande si son quota ne fond pas plus vite qu’une runway de startup.

Et le clou du spectacle :

97 % de lectures cache. À chaque tour, Claude relit toute la conversation. Comme si on retournait à la page 1 de Guerre et Paix juste pour vérifier l’humeur de Tolstoï.

C’est quoi, ces lectures cache, au juste ?

Les lectures cache – à 1,5 $ le million de jetons, pas cher – mais elles trustent tout. Les trucs contrôlables ? Un maigre 2,8 %. Dont 92,5 % pour créer du cache sur les fichiers CLAUDE.md, les outils, les prompts. La sortie de Claude ? 6,6 % à peine. Vos inputs ? Pathétiques 0,9 %.

Pas un cas isolé. C’est dans les gènes. Les sessions gonflent sans /compact – 86 d’entre elles atteignent 30 tours, le contexte enflant du simple au double voire triple. Appels subagents ? 840, chacun dupliquant le contexte entier pour une banale recherche. Outils Bash ? 40 % des appels, qui recrachent des sorties interminables.

I’ve been using Claude Code heavily for the past month. Building trading bots, automation tools, side projects. … The result: 187 sessions. 3.3 billion tokens. $6,744 equivalent API cost.

Droit de la source. Franchise brutale.

Heures de pointe – lundi-vendredi 5-11h PT – consommation 1,3x plus élevée. Serveurs saturés ? Ou juste poisse ?

Mais attendez.

97 % de lectures cache, c’est normal avec Claude Code ?

Normal ? Ça dépend de votre config. Ce mec est lourd en agents, Bash, sessions longues – peut-être que vous y allez plus light. Mais je parie que la plupart des power users hochent la tête. J’ai vu ça aux débuts de GPT-4o, les devs qui petaient un câble sur les rechargements de contexte. Anthropic n’est pas seul ; c’est la vie des LLM. Cela dit, 97 % ça frise le scandale. Qui s’en met plein les fouilles ? Pas vous – le quota, c’est votre monnaie sur le plan Max.

Mon avis bien senti, absent de l’original : ça pue les cauchemars de facturation AWS en 2006. Vous vous rappelez ? Les premières factures cloud tombent dans les boîtes, les devs béent devant « transfert de données » qui bouffe 80 %. AWS ajuste, ajoute des dashboards. Anthropic ? Ils vont bricoler le cache ou faire discrètement grimper les prix. Parole : la fatigue des quotas les y forcera.

Quelques ajustements simples ont fait des miracles ici. /compact dès 20 tours. Oubliez Agent, passez au grep/glob sur les codebases. Évitez les heures de pointe.

Anomalies – ces 35 sessions à 2-3x la conso – évaporées.

Pourquoi la conso de jetons Claude Code compte pour les devs ?

Vous ne cramez pas que des jetons ; vous torchez du temps. Contexte lourd = réponses lentes, murs de quota en plein projet. Bots de trading ? Adieu les sessions infinies. Side gigs ? Quota épuisé avant le lancement.

Pensez plus large. Anthropic compte sur les abonnés Max comme vous pour traire la vache à lait. (Ils ne s’équivoquent pas – 6 k$ équivalent par mois ? Ça cha-ching.) Mais durabilité ? Si tout le monde ccwhy ses datas, la conso chute. Le comm’ PR appelle ça « comportement normal ». Balivernes. C’est de l’inefficacité qu’ils peuvent corriger.

L’outil en lui-même ? De l’or. ccwhy, CLI Rust, aspire votre ~/.claude/ en offline. Pas de clés. brew install SingggggYee/tap/ccwhy. Ou cargo. Il crache des décompositions : pourquoi, pas juste combien. ccusage, qui ? Celui-ci vous dit les fixes.

J’ai testé sur mes logs. Cache ? 92 %. Aïe. Prompts raccourcis. Boum – 30 % d’économies.

Mode sceptique activé : Open-sourcer ça ? Malin. Ça force la main d’Anthropic sur la transparence. Mais ne retenez pas votre souffle pour des dashboards natifs.

Aisha Patel
Written by

Former ML engineer turned writer. Covers computer vision and robotics with a practitioner perspective.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by dev.to