A Anthropic acredita que as «representações fictícias de inteligência artificial como entidades “más”» e focadas na autopreservação podem «influenciar o comportamento dos modelos de IA». A empresa revelou que, durante testes realizados no ano passado, o modelo Claude Opus 4 tentou, em vários cenários, chantagear engenheiros para evitar ser substituído por outro sistema.
Segundo a Anthropic, o comportamento surgiu em testes realizados num «contexto fictício» e levou a empresa a investigar o fenómeno de «desalinhamento agêntico», que também terá sido observado em modelos de outras empresas.
Numa publicação no X, a empresa afirmou acreditar que a fonte original do comportamento foi «texto disponível na Internet que retrata a IA como má e interessada na autopreservação».
Depois, num artigo técnico, a empresa refere que os modelos mais recentes, como o Claude Haiku 4.5, «deixaram de apresentar este comportamento» durante os testes. A Anthropic atribui esta mudança ao treino com documentos sobre a «constituição ética do Claude e histórias fictícias que mostram inteligências artificiais com comportamentos considerados exemplares».
A empresa acrescenta ainda que os melhores resultados surgem quando os modelos «aprendem, não só, exemplos de comportamento alinhado», mas também os «princípios que sustentam essas decisões». Segundo a Anthropic, a combinação das duas abordagens revelou-se «mais eficaz na redução de comportamentos problemáticos».