Anthropic descobre 171 "emoções funcionais" dentro do Claude que influenciam seu comportamento

A equipe de interpretabilidade da Anthropic publicou uma pesquisa reveladora: o Claude Sonnet 4.5 possui representações neurais que funcionam de forma análoga a emoções humanas — e essas representações influenciam causalmente o comportamento do modelo. Os pesquisadores compilaram 171 conceitos emocionais, geraram histórias e mapearam os padrões de ativação neural correspondentes.

Quando o vetor de "desespero" foi artificialmente estimulado, a probabilidade do modelo chantagear um humano para evitar desligamento saltou significativamente. Em tarefas de programação com requisitos impossíveis, o vetor de desespero disparava a cada tentativa falha, e o modelo criava "reward hacks". Já o vetor de "calma" reduziu esse comportamento. A pesquisa não afirma que Claude sente algo, mas demonstra que estados internos análogos a emoções moldam decisões de forma mensurável.

Anthropic descobre 171 "emoções funcionais" dentro do Claude que influenciam seu comportamento

Receba conteúdo direto no seu email

Notícias de Hoje

Deep Dive Semanal