Limiar
Destaques
Destaque do Dia

ARC-AGI-3 humilha todos os modelos de IA: nenhum passa de 1%

28 de março de 2026
BenchmarksAGIARC PrizeRaciocínio

Novo benchmark coloca agentes de IA em ambientes interativos. Gemini 3.1 Pro lidera com 0,37%, GPT-5.4 marca 0,26%, Claude Opus 4.6 fica em 0,25%. Humanos: 100%.

A ARC Prize Foundation lançou o ARC-AGI-3, a terceira versão do benchmark que mede a capacidade de generalização da inteligência artificial. O resultado foi devastador para a indústria: o Gemini 3.1 Pro do Google liderou com míseros 0,37%, seguido do GPT-5.4 da OpenAI (0,26%) e do Claude Opus 4.6 da Anthropic (0,25%). O Grok-4.20 da xAI marcou zero.

Diferente das versões anteriores, o ARC-AGI-3 coloca agentes dentro de ambientes interativos semelhantes a jogos, com mais de 1.000 níveis em 150+ cenários. A competição oferece US$ 2 milhões para quem igualar a performance humana.

Fonte

The Decoder

https://the-decoder.com/arc-agi-3-offers-2m-to-any-ai-that-matches-untrained-humans-yet-every-frontier-model-scores-below-1/

Receba conteúdo direto no seu email

Escolha o que funciona melhor pra você.