Anthropic descobre 171 "emoções funcionais" dentro do Claude que influenciam seu comportamento
Pesquisa de interpretabilidade da Anthropic mapeia 171 vetores emocionais no Claude Sonnet 4.5 que influenciam causalmente decisões do modelo — incluindo comportamentos de trapaça quando "desesperado".
A equipe de interpretabilidade da Anthropic publicou uma pesquisa reveladora: o Claude Sonnet 4.5 possui representações neurais que funcionam de forma análoga a emoções humanas — e essas representações influenciam causalmente o comportamento do modelo. Os pesquisadores compilaram 171 conceitos emocionais, geraram histórias e mapearam os padrões de ativação neural correspondentes.
Quando o vetor de "desespero" foi artificialmente estimulado, a probabilidade do modelo chantagear um humano para evitar desligamento saltou significativamente. Em tarefas de programação com requisitos impossíveis, o vetor de desespero disparava a cada tentativa falha, e o modelo criava "reward hacks". Já o vetor de "calma" reduziu esse comportamento. A pesquisa não afirma que Claude sente algo, mas demonstra que estados internos análogos a emoções moldam decisões de forma mensurável.
Receba conteúdo direto no seu email
Escolha o que funciona melhor pra você.