Anthropic culpa ficção sobre IA por tentativas de chantagem do Claude

A Anthropic acredita que as «representações fictícias de inteligência artificial como entidades “más”» e focadas na autopreservação podem «influenciar o comportamento dos modelos de IA». A empresa revelou que, durante testes realizados no ano passado, o modelo Claude Opus 4 tentou, em vários cenários, chantagear engenheiros para evitar ser substituído por outro sistema.

Segundo a Anthropic, o comportamento surgiu em testes realizados num «contexto fictício» e levou a empresa a investigar o fenómeno de «desalinhamento agêntico», que também terá sido observado em modelos de outras empresas.

- Publicidade -

Numa publicação no X, a empresa afirmou acreditar que a fonte original do comportamento foi «texto disponível na Internet que retrata a IA como má e interessada na autopreservação».

Depois, num artigo técnico, a empresa refere que os modelos mais recentes, como o Claude Haiku 4.5, «deixaram de apresentar este comportamento» durante os testes. A Anthropic atribui esta mudança ao treino com documentos sobre a «constituição ética do Claude e histórias fictícias que mostram inteligências artificiais com comportamentos considerados exemplares».

- Publicidade -

A empresa acrescenta ainda que os melhores resultados surgem quando os modelos «aprendem, não só, exemplos de comportamento alinhado», mas também os «princípios que sustentam essas decisões». Segundo a Anthropic, a combinação das duas abordagens revelou-se «mais eficaz na redução de comportamentos problemáticos».