Limiar
Destaques
Destaque do Dia

ARC-AGI-3: todos os modelos de IA ficaram abaixo de 1%

26 de março de 2026
BenchmarksAGIPesquisa

O novo benchmark ARC-AGI-3 desafia modelos a explorar ambientes desconhecidos e adaptar estratégias em tempo real. Gemini 3.1 Pro: 0,37%. GPT-5.4: 0,26%. Claude Opus 4.6: 0,25%. Grok 4.2: 0%. Humanos: 100%.

O ARC Prize Foundation lançou o ARC-AGI-3, uma nova geração de benchmark que não mede mais raciocínio estático, mas a capacidade de explorar ambientes desconhecidos, formular hipóteses e adaptar estratégias em tempo real. Os resultados são impressionantes — pelo silêncio dos modelos: Gemini 3.1 Pro alcançou 0,37%, GPT-5.4 ficou em 0,26%, Claude Opus 4.6 em 0,25% e Grok 4.2 zerou. Enquanto isso, 100% dos humanos testados resolveram todos os cenários na primeira tentativa.

A diferença fundamental é que o ARC-AGI-3 exige aprendizado contínuo dentro de cada ambiente — perceber o que importa, selecionar ações e revisar modelos mentais sem instruções em linguagem natural. É exatamente o loop exploratório que humanos executam instintivamente e que modelos atuais fazem mal sem engenharia específica. Para profissionais que avaliam investimentos em IA, o benchmark é um lembrete importante: estamos avançando rápido em tarefas definidas, mas a inteligência geral adaptativa continua distante.

Fonte

Fast Company

https://www.fastcompany.com/91515360/arc-prize-foundation-new-ai-benchmark

Receba conteúdo direto no seu email

Escolha o que funciona melhor pra você.