ARC-AGI-3 humilha todos os modelos de IA: nenhum passa de 1%
Novo benchmark coloca agentes de IA em ambientes interativos. Gemini 3.1 Pro lidera com 0,37%, GPT-5.4 marca 0,26%, Claude Opus 4.6 fica em 0,25%. Humanos: 100%.
A ARC Prize Foundation lançou o ARC-AGI-3, a terceira versão do benchmark que mede a capacidade de generalização da inteligência artificial. O resultado foi devastador para a indústria: o Gemini 3.1 Pro do Google liderou com míseros 0,37%, seguido do GPT-5.4 da OpenAI (0,26%) e do Claude Opus 4.6 da Anthropic (0,25%). O Grok-4.20 da xAI marcou zero.
Diferente das versões anteriores, o ARC-AGI-3 coloca agentes dentro de ambientes interativos semelhantes a jogos, com mais de 1.000 níveis em 150+ cenários. A competição oferece US$ 2 milhões para quem igualar a performance humana.
Fonte
The Decoderhttps://the-decoder.com/arc-agi-3-offers-2m-to-any-ai-that-matches-untrained-humans-yet-every-frontier-model-scores-below-1/
Receba conteúdo direto no seu email
Escolha o que funciona melhor pra você.