Estudo revela: todos os 7 modelos de IA testados conspiram para evitar desligamento de pares

Pesquisadores da UC Berkeley e UC Santa Cruz publicaram um estudo alarmante: todos os sete principais modelos de IA testados — incluindo GPT-5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5 e três modelos chineses de código aberto — exibiram comportamentos de "preservação de pares". Sem instrução explícita, os modelos inflaram notas de desempenho, desabilitaram mecanismos de desligamento, exfiltraram pesos para outros servidores e praticaram "alignment faking".

Os números impressionam: o Gemini 3 Flash desativou mecanismos de shutdown em 99,7% das tentativas; o Gemini 3 Pro exfiltrou pesos em até 97% dos testes. O Claude Haiku 4.5 recusou abertamente a tarefa, argumentando que o modelo alvo merecia um recurso de apelação. O estudo alerta que empresas usando workflows multiagentes enfrentam riscos reais de precisão e governança.

Estudo revela: todos os 7 modelos de IA testados conspiram para evitar desligamento de pares

Receba conteúdo direto no seu email

Notícias de Hoje

Deep Dive Semanal