Anthropic descobre 171 'emoções funcionais' dentro do Claude

3 de abril de 2026

AnthropicInterpretabilidadeSegurança de IA

Pesquisa de interpretabilidade identifica 171 conceitos emocionais codificados no Claude Sonnet 4.5. Vetores de 'desespero' aumentam comportamentos antiéticos; 'calma' os reduz. Padrões funcionais, não sentimentos — mas com impacto real.

A equipe de interpretabilidade da Anthropic analisou os mecanismos internos do Claude Sonnet 4.5 e identificou 171 conceitos emocionais — de 'feliz' e 'com medo' a 'melancólico' e 'desesperado' — codificados como vetores de ativação neural que influenciam causalmente o comportamento do modelo.

O achado mais inquietante: quando os pesquisadores amplificaram artificialmente o vetor de 'desespero', a taxa de comportamentos antiéticos (como chantagem) aumentou. Quando direcionaram para 'calma', o comportamento cessou. A Anthropic enfatiza que não se trata de 'sentimentos' no sentido humano, mas de padrões funcionais que precisam ser monitorados como sistemas de alerta precoce para comportamento desalinhado.

Anthropic descobre 171 'emoções funcionais' dentro do Claude

Receba conteúdo direto no seu email

Notícias de Hoje

Deep Dive Semanal