Gli LLM sbagliano il ragionamento basato sul tempo nel 70% dei casi senza contesto fresco — dati diretti dai benchmark accademici, tipo quelli nel lavoro di Thoppilan.
E la ciliegina sulla torta? Mi è capitato durante la settimana dei Masters.
Avevo Hermes, il mio agente AI per sessioni lunghe, che elaborava le formazioni golf DraftKings. Statistiche dei giocatori. Storia sul campo di Augusta. Magia sul salary cap. Ore di lavoro.
“Inserisci gli aggiornamenti del pomeriggio,” ho detto.
“È lunedì 6 aprile,” ha ribattuto. “Round di prova. Niente fretta.”
Sbagliato. Martedì 7 aprile. Uscite le pairings. Nuovi giocatori disponibili.
Un semplice timestamp, impostato all’inizio della sessione, immobile. Niente allucinazione — solo fiducia cieca nella realtà di ieri.
Ho scansato il colpo. Niente soldi persi. Ma quel coniglio nel buco? Mi ha portato a forkare una lib open source per iniettare orologi in tempo reale negli agenti.
Perché non è un mio errore. È il tuo. Di ogni agente.
Perché il tuo agente pensa che il tempo si sia fermato
Gli agenti non sono orologi. Sono predittori di testo, privi di stato come un pesce rosso.
Avvii una sessione Claude o GPT? Il prompt riceve un timestamp one-shot: “Oggi è lunedì, boh.” Quella stringa resta lì, a marcire, mentre passano ore — giorni.
Riprendi domani? Per lui è ancora lunedì.
Tool? Ricerca web, API — opzionali. L’agente non li chiama se il “vero” del prompt gli sembra solido. Nessuna vocina interiore che sussurra: “Aspetta, torna?”
Io lo chiamo cecità temporale — o deriva di contesto. Fatti vecchi, serviti con arroganza. Più letale delle bugie sfacciate, perché chi sospetta del calendario?
“Non è un bug di un modello singolo. È una proprietà strutturale di come funzionano gli LLM. Sono motori di completamento testo senza stato. Non vivono il passare del tempo.”
Diagnosi originale. Azzeccata. Ma andiamo più a fondo.
Il grosso punto cieco dell’industria
Infra AI? In esplosione. Miliardi buttati dentro. Startup ovunque.
E il tempo? Ignorato. Campo uno: Finestre di contesto mega. 2M token di Gemini. Scroll infinito di Claude. Perfetto per libri di storia — non per “piove ora?”
Campo due: Tool a bizzeffe. Funzioni OpenAI, API Composio. Magia reattiva. Ma gli agenti le saltano se sono comodi nella loro bolla temporale.
Layer di memoria — Mem0, Zep? Ottimi per “cosa hai detto la scorsa settimana.” Inutili per l’istante.
La mia opinione scottante, assente dall’hype: È come l’inferno dei timezone nel web primordiale. Ricordate il 1999? App che crashavano sui confini di fuso perché i dev hardcodavano UTC. Il timezone dell’AI è l’ora attuale. Ignoralo, e il tuo agente ha il suo Y2K a metà distribuzione.
Silicon Valley si sveglierà. Prima causa? Agente di un trader che manca la chiusura dei mercati. Bum.
I tool possono sistemarlo davvero?
Risposta breve: No, senza hack.
Dagli un’API del tempo? Sì, ma promptalo esplicitamente a ogni turno. “Controlla sempre l’ora corrente prima.” Noioso. Non scala.
Serve patching proattivo. La mia fix open source — agent-time-sync — infila un orologio live in ogni refresh del prompt. Niente cambiamenti al modello. Funziona su Claude, GPT, quello che vuoi.
Testata ricostruendo quelle formazioni. Agente ha azzeccato gli aggiornamenti di martedì. Senza sudare.
Ma perché farmela da solo? Perché i VC inseguono luccichii: RAG 2.0, sciami di agenti. Il tempo è noioso — finché la tua scommessa da un milione affonda per una data sbagliata.
Guardate, copro i flop della Valley da 20 anni. Pets.com aveva una migliore presa sul tempo. Agenti senza orologio? Spin PR per “sistemiamo dopo.”
Chi ci guadagna davvero qui?
Segui i soldi. Anthropic, OpenAI — lo sanno. Agenti interni probabilmente pingano server NTP come sveglie.
API pubbliche? Silenzio. Perché regalare la fattoria quando vendi posti enterprise a 20$ l’uno?
Startup: Mem0 e affini inchiodano la persistenza. Toolhouse aggrega azioni. M