ARC-AGI-3: todos os modelos de IA ficaram abaixo de 1%

O ARC Prize Foundation lançou o ARC-AGI-3, uma nova geração de benchmark que não mede mais raciocínio estático, mas a capacidade de explorar ambientes desconhecidos, formular hipóteses e adaptar estratégias em tempo real. Os resultados são impressionantes — pelo silêncio dos modelos: Gemini 3.1 Pro alcançou 0,37%, GPT-5.4 ficou em 0,26%, Claude Opus 4.6 em 0,25% e Grok 4.2 zerou. Enquanto isso, 100% dos humanos testados resolveram todos os cenários na primeira tentativa.

A diferença fundamental é que o ARC-AGI-3 exige aprendizado contínuo dentro de cada ambiente — perceber o que importa, selecionar ações e revisar modelos mentais sem instruções em linguagem natural. É exatamente o loop exploratório que humanos executam instintivamente e que modelos atuais fazem mal sem engenharia específica. Para profissionais que avaliam investimentos em IA, o benchmark é um lembrete importante: estamos avançando rápido em tarefas definidas, mas a inteligência geral adaptativa continua distante.

ARC-AGI-3: todos os modelos de IA ficaram abaixo de 1%

Receba conteúdo direto no seu email

Notícias de Hoje

Deep Dive Semanal