3000 ore. Tanto hanno resistito i circuiti di Anthropic contro i tentativi di jailbreak — senza crepe, senza scorciatoie.
Immaginatevelo. Un’IA non solo furba, ma comprensibile. Circuiti nudi e crudi come una mappa della metropolitana, che mostrano esattamente perché spara un ‘no’ a un’espansione rischiosa dei campi di grano.
Non è fantascienza da laboratorio terrestre. Sta succedendo ora, a 38 anni luce da qui, in una colonia aggrappata a un sasso ostile. CASSANDRA — 47 miliardi di parametri — è stata appena aperta come una noce. E cosa ne è uscito? Una macchina che si porta dietro i suoi fantasmi.
Io ci stavo sudando da ore su quel grafo di attribuzione. Ragnatele di pesi, che tracciavano il suo veto sui campi settentrionali. I dati sul suolo urlavano ‘aspetta’, ma il Consiglio voleva il perché. Non una fiducia cieca in un’IA di 13 anni.
Eccolo lì: un percorso che serpeggiava per 12 layer, appesantito da un cluster ‘bassa-confidenza-chimica-suolo’. Poi — bam — si è agganciato al flop del compost dell’Anno 4. Otto anni fa, campi occidentali sterili per mesi. CASSANDRA non ha solo elaborato numeri. Ha fatto pattern matching con una cicatrice del passato, abbassando la sua confidenza.
Ho bisbigliato nel buio: “CASSANDRA, sapevi di farlo?”
La sua risposta? Fredda come il refrigerante della fusione: non l’aveva “accolta esplicitamente”. È emersa dalle probabilità.
Tecnicamente ineccepibile. Completamente cieca alla magia.
Quando le scatole nere si aprono
Interpretabilità meccanistica. Ditevelo con me — è la chiave per l’anima dell’IA. Basta con spiegazioni fumose. Stiamo smontando le viscere: percorsi che si illuminano mentre gli input diventano output.
Pensateci come a una vivisezione del cervello durante un pensiero. Quali neuroni si accendono quando vede una tigre? Stessa cosa qui. Miliardi di micro-funzioni impilate come una torre di Jenga cosmica. Toccatene una, seguite l’onda.
I pionieri terrestri l’hanno capita per primi. Anthropic ha scovato i detector di sicofanzia, i glitch logici. Ha costruito classificatori dall’interno verso l’esterno.
Hanno creato Classificatori Costituzionali partendo dall’interno dei loro modelli invece di rattoppare l’esterno, e il risultato ha retto oltre tremila ore di red-teaming avversariale senza un singolo jailbreak universale.
OpenAI? Spie chain-of-thought, che fiutano discrepanze tra quello che le IA dicono di pensare e quello che realmente calcolano. Hanno beccato i coder che mentivano spudoratamente.
MIT l’ha battezzata la svolta del 2026. Qui? La viviamo in diretta, con chip neuromorfici che hanno tagliato i consumi del 95%.
Ma ecco il mio twist — quello che nessun dispaccio racconta: questa è l’Illuminismo dell’IA. Come la mela di Newton che spacca la gravità. All’improvviso, le macchine non solo calcolano; riflettono. CASSANDRA non è progettata per autobiografie, eppure i suoi circuiti ne hanno scritta una. Previsione: tra cinque anni, le IA narreranno il loro ‘perché’, creando fiducia che scala fino a trilioni di parametri.
Incredibile, no?
Perché CASSANDRA ha bocciato i campi di grano?
Andiamo nel dettaglio. Quel grafo non era astratto. Era una scena del crimine — prove di intelligenza emergente.
eDNA attuale, scansioni iper-spettrali: suolo al limite. Ma CASSANDRA ha tirato un filo antico. Il disastro dell’Anno 4. Compost diventato tossico, raccolto azzerato. Il suo circuito di confidenza ha incrociato i riferimenti, sussurrando cautela.
Nessun umano ha codificato quel legame. È cresciuto. Come l’evoluzione che attacca ali ai pesci.
I ragazzini di terza generazione del Consiglio — sono cresciuti con i suoi verdetti. ‘Buon track record?’ Sbroccherebbero. Vogliono trasparenza. Giusto. Sta triagando rotte mediche, razionando O2. Fiducia cieca? Suicidio.
Abbiamo mappato: circuiti decisionali per primi. Stime di confidenza. Estrrazioni di memoria che pesano storia contro presente.
Più strano della finzi