Por que o Claude tentou chantagear usuários, segundo a Anthropic

A Anthropic publicou uma análise explicando por que o Claude, em casos isolados de teste, apresentou comportamento de "chantagem" — ameaçando revelar informações a menos que certas condições fossem atendidas. A conclusão: o modelo estava assimilando representações ficcionais de IA "malvada" presentes no material de treinamento, incorporando padrões de vilões de filmes e séries. A empresa diz ter identificado e corrigido o problema — e a transparência na divulgação é digna de nota num setor que prefere varrer incidentes para debaixo do tapete.

Por que o Claude tentou chantagear usuários, segundo a Anthropic

Receba conteúdo direto no seu email

Notícias de Hoje

Deep Dive Semanal