ARC-AGI-3 humilha todos os modelos de IA: nenhum passa de 1%

A ARC Prize Foundation lançou o ARC-AGI-3, a terceira versão do benchmark que mede a capacidade de generalização da inteligência artificial. O resultado foi devastador para a indústria: o Gemini 3.1 Pro do Google liderou com míseros 0,37%, seguido do GPT-5.4 da OpenAI (0,26%) e do Claude Opus 4.6 da Anthropic (0,25%). O Grok-4.20 da xAI marcou zero.

Diferente das versões anteriores, o ARC-AGI-3 coloca agentes dentro de ambientes interativos semelhantes a jogos, com mais de 1.000 níveis em 150+ cenários. A competição oferece US$ 2 milhões para quem igualar a performance humana.

ARC-AGI-3 humilha todos os modelos de IA: nenhum passa de 1%

Receba conteúdo direto no seu email

Notícias de Hoje

Deep Dive Semanal