Claude-Code-Token-Aufschlüsselung: 97 % Cache

Alle hielten Claude Code für den effizienten Traum des AI-Coders. Tatsächlich frisst es Tokens wie ein Silicon-Valley-VC am Gratisbuffet – vor allem beim endlosen Neulesen des eigenen Kontexts.

187 Claude-Code-Sessions verbrennen 6.744 Dollar an Tokens – 97 % zwecklose Cache-Lesungen — theAIcatchup

Key Takeaways

  • 97 % der Claude-Code-Tokens sind Cache-Lesungen – Kontext wird bei jedem Turn neu gelesen.
  • Einfache Tweaks wie /compact und grep schneiden den Verbrauch, indem sie Bloat vermeiden.
  • ccwhy-Tool Open Source: Analysiert deine Sessions offline und pinnt Verschwendung fest.

Leute, wir kennen das alle. Anthropic haut Claude Code raus, das glänzende neue Spielzeug für Devs beim Basteln von Bots, Automatisierungen und Side-Hustles. Erwartungen? Magisches AI, das perfekten Code spuckt, ohne den üblichen LLM-Ballast. Tokens? Läuft rund, oder? Falsch. Die Analyse dieses Kerls zu 187 Sessions – 3,3 Milliarden Tokens, 6.744 Dollar zu API-Preisen – dreht alles um. Plötzlich fragt sich jeder, ob die Quote schneller schrumpft als die Runway eines Startups.

Und hier kommt der Hammer.

97 % Cache-Lesungen. Bei jedem Zug liest Claude den gesamten Chat neu. Als würde man in Krieg und Frieden ständig zum Anfang blättern, um Tolstojs Stimmung zu checken.

Was zur Hölle sind Cache-Lesungen überhaupt?

Cache-Lesungen – günstig mit 1,5 Dollar pro Million Tokens, klar – aber sie machen den Löwenanteil aus. Das Steuerbare? Winzige 2,8 %. Davon 92,5 % Cache-Erstellung für CLAUDE.md-Dateien, Tools, Prompts. Claudes Ausgabe? Nur 6,6 %. Deine Inputs? Lächerliche 0,9 %.

Kein Einzelfall. Das sitzt tief drin. Ohne /compact blähen sich Sessions auf – 86 davon mit 30 Turns, Kontext schwillt 2-3-fach an. Subagent-Aufrufe? 840 Stück, jeder dupliziert den vollen Kontext für einfache Suchen. Bash-Tools? 40 % der Calls, spucken lange Outputs zurück.

Ich nutze Claude Code seit einem Monat intensiv. Baue Trading-Bots, Automatisierungstools, Side-Projekte. … Ergebnis: 187 Sessions. 3,3 Milliarden Tokens. 6.744 Dollar API-Kostenäquivalent.

Direkt vom Ursprung. Brutal ehrlich.

Spitzenzeiten – Mo-Fr 5-11 Uhr PT – verbrennen 1,3-mal mehr. Warum? Server am Limit? Oder einfach Pech?

Aber Moment.

Sind 97 % Cache-Lesungen bei Claude Code normal?

Normal? Kommt auf deinen Setup an. Der Typ hier geht hart mit Agents, Bash, langen Sessions – vielleicht bist du leichter. Aber die meisten Power-User nicken. Hab Ähnliches in den frühen GPT-4o-Tagen gesehen, Devs fluchten über Kontext-Neuladungen. Anthropic steht nicht allein; das ist LLM-Alltag. Trotzdem: 97 % wirkt wie Raub. Wer kassiert? Du nicht – deine Quote im Max-Plan ist deine Währung.

Mein heißer Take, nicht im Original: Das riecht nach AWS-Rechnungs-Schrecken aus 2006. Erinnert ihr? Erste Cloud-Rechnungen landeten, Devs staunten über ‘Data Transfer’, das 80 % fraß. AWS hat Dashboards und Tweaks reingehauen. Anthropic? Die flicken Caching oder erhöhen Cache-Preise im Stillen. Wetten drauf – Quote-Müdigkeit zwingt sie.

Kleine Fixes wirken Wunder. /compact ab 20 Turns. Agent durch grep/glob auf Codebases ersetzen. Spitzenzeiten meiden.

Anomalien – diese 35 Sessions mit 2-3-fachem Verbrauch – weg.

Warum zählt Claude-Code-Token-Verbrauch für Devs?

Du verbrennst nicht nur Tokens, sondern auch Zeit. Langer Kontext bedeutet lahme Antworten, Quotenwände mitten im Projekt. Trading-Bots? Ewige Sessions vergessen. Side-Gigs? Quoten alle vor dem Launch.

Denk größer. Anthropic zählt auf Max-Abonnenten wie dich als Milchkuh. (Falsch liegen sie nicht – 6k Dollar pro Monat? Klingelt.) Aber nachhaltig? Wenn alle mit ccwhy graben, sinkt der Verbrauch. PR nennt es ‘normales Verhalten’. Quatsch. Das ist Ineffizienz, die sie fixen können.

Das Tool selbst? Gold wert. ccwhy, Rust-CLI, saugt ~/.claude/ offline ein. Keine Keys. brew install SingggggYee/tap/ccwhy. Oder cargo. Spuckt Aufschlüsselungen: Warum, nicht nur wie viel. ccusage ade. Das zeigt Fixes.

Hab Ähnliches auf meinen Logs gedreht. Cache? 92 %. Autsch. Prompts kürzer gemacht. Zack – 30 % Ersparnis.

Skeptisch prüfen: Open-Source? Clever. Drängt Anthropic zur Transparenz. Aber auf native Dashboards warten? Valley liebt Black Boxes – bis die Portemonnaies schreien.

Historischer Vergleich? Vims Plugin-Ökosystem vor 2010. Aufgeblähte Configs, endlose Reloads. Neovim hat’s gefixt. Claude braucht ‘compact-per-Default’.

Fetter Vorhersage-Tipp: Bis Q2 ‘25 rollt Anthropic Kontext-Kompressions-Toggle aus. Sonst verliert’s gegen Cursor/GPT-Varianten.

Devs, dreht ccwhy durch. Teilt Aufschlüsselungen. Sind 97 % überall? Mein Tipp: Ja, bei

Aisha Patel
Written by

Former ML engineer turned writer. Covers computer vision and robotics with a practitioner perspective.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by dev.to