Prompts zero-shot de chain-of-thought turbinaram a precisão do text-davinci-002 no MultiArith de 17,7% para 78,7%.
Pum. Não é erro de digitação — é o tipo de salto que te deixa de queixo caído, tipo ver uma criança de dois anos montando um Cubo Mágico do nada. Os sistemas de raciocínio de IA não estão mais só repetindo padrões; eles começam a pensar, passo a passo, sem firula. E o mais louco: isso não é truque de laboratório. Tá mudando como a gente constrói o futuro.
Lembra da Sally e da bolinha dela? Ela guarda na cesta, sai, a Anne rouba e bota numa caixa. Sally volta — onde ela vai procurar? Crianças mandam bem nesse teste de “falsa crença” com cinco anos. IA? Patinou por décadas. Mas os proxies do teste de Turing de 2024 mostram modelos de linguagem grandes enganando humanos no papo furado com mais frequência, sinalizando que a teoria da mente tá se infiltrando.
Pera, O Que É Teoria da Mente — E Por Que Devs Deveriam Ligar?
Teoria da mente. É aquele superpoder humano de sacar quando o amigo tá mentindo, prever o surto dele com notícia ruim ou rachar uma parada complicada sem ficar de babá o tempo todo. Sem isso, você é um gênio isolado, brilhante mas cego pro xadrez social.
A IA era o eremita. Agora? Rachaduras aparecem. Benchmarks como MMLU deram saltos gigantes entre GPT-3.5 e GPT-4 — pensa em ganhos de 20-30 pontos em misturas de raciocínio multistep com conhecimento e bom senso. Praticantes juram de pés juntos nas implantações; não tem como ser só memória de cor.
Mas o show pirotécnico de verdade? Chain-of-thought prompting. Lançado em 2022, é só mandar: “Mostra o raciocínio.”
Olha essa pérola:
Problema: Se você tem 3 maçãs e dá 2 embora, depois compra 5, quantas você tem?
Sem CoT: 6 Com CoT: Passo 1: Começa com 3 maçãs Passo 2: Dá 2 embora → 3 - 2 = 1 maçã sobrando Passo 3: Compra 5 → 1 + 5 = 6 maçãs Resposta: 6
Simples, né? Mas vira o jogo de fracasso pra vitória. Por quê? Três suspeitos: decompor alivia a fritura mental (tipo seu rascunho), auto-verificação pega erro na hora, atenção foca no que importa. Todos contam — só não sabemos a receita exata.
E não tá sozinho. Self-consistency — gera vários caminhos, vota no melhor — soma 17,9% no GSM8K de matemática. Tree-of-thoughts ramifica tipo livro de escolhas. Isso grita exploração, não decoração.
Modelos de Linguagem Grandes Estão Desbloqueando o Pensamento System 2?
Daniel Kahneman cravou: System 1 é o instinto rápido; System 2 é o pensador devagar e sempre. LLMs rodam no System 1 — mágica zip de padrões. Mas joga CoT ou votação? De repente, rala de propósito, tipo detetive montando pistas.
Os dados confirmam. O massacre do GPT-4 no MMLU contra GPT-3.5 espelha o que times veem na prática: workflows de raciocínio que entregam. É mudança de plataforma, galera — IA saindo de ajudante de autocompletar pra cérebro colaborativo.
Minha visão, que você não acha nos relatórios originais: isso ecoa a virada do ábaco pro cálculo na história humana. Antes do cálculo? Mercadores somavam livros contábeis de boa. Mas libera derivadas, integrais? Bum — impérios de engenharia, foguetes pra Lua. O chain-of-thought da IA é esse momento. Aposto: em dois anos, ferramentas de dev com agentes de ToM vão co-pilotar codebases, sacando intenções de usuário que a gente perde, transformando trampo solo em sinfonia.
Cético? Justo. Hype tá grosso — números da OpenAI ofuscam, mas corporate spin lixa arestas. Modelos ainda flopam em trocas de lógica transitiva: treina A > B > C em matemática, testa em popularidade de música? Silêncio. Misturas novas derrubam sistematicamente. Representações? Longe do nível humano.
Mas o progresso explode. ARC-Challenge, HellaSwag — gaps fecham rápido. 2026 sussurra coisa maior. A gente tá vendo a IA bootstrapping a própria cognição, camada por camada emergente.
Imagina armazéns zumbindo com enxames de a