Claude AI agora tem a capacidade de encerrar uma conversa: um novo mecanismo para lidar com situações extremas

Nos últimos meses, a Anthropic intensificou seus esforços de segurança, implementando recursos e conduzindo pesquisas sobre como tornar a IA mais segura. O recurso mais recente parece ser Claude É uma das características mais marcantes de todos os tempos.

Tanto o Claude Opus 4 quanto o 4.1 (as versões mais recentes do Anthropic) agora têm a capacidade de encerrar conversas na interface de bate-papo do usuário. Embora esse recurso não seja amplamente utilizado, ele foi implementado para casos raros e extremos de "interações do usuário persistentemente prejudiciais ou abusivas".

في Uma postagem de blog explorando o novo recurso“Ainda estamos bastante incertos sobre o potencial status ético do Claude e de outros modelos de linguagem de grande porte, tanto agora quanto no futuro”, afirmou a equipe da Anthropic. “No entanto, levamos essa questão muito a sério.”

Em testes anteriores ao lançamento dos modelos mais recentes da Anthropic, a empresa realizou avaliações do bem-estar do modelo. Isso incluiu a análise das preferências comportamentais e autodeclaradas por Claude, e constatou uma forte e consistente aversão a danos.

Ainda estamos bastante incertos quanto ao potencial status ético do Claude e de outros modelos de linguagem de grande porte, tanto agora quanto no futuro. No entanto, levamos essa questão a sério.

Antrópico

Em outras palavras, Claude efetivamente encerraria ou se recusaria a participar dessas conversas. Entre elas, estavam solicitações de usuários por conteúdo sexual envolvendo menores e tentativas de solicitar informações que pudessem permitir violência generalizada ou atos terroristas.

Em muitos desses casos, os usuários persistiram com solicitações prejudiciais ou abusivas, apesar da recusa ativa de Claude em atender. O novo recurso, que permite que Claude encerre a conversa de forma eficaz, busca oferecer alguma proteção nessas situações.

A Anthropic explica que esse recurso não será aplicado em situações em que os usuários possam estar em perigo iminente de ferir a si mesmos ou a outras pessoas.

“Em todos os casos, Claude só deve usar sua capacidade de encerrar uma conversa como último recurso, quando várias tentativas de redirecionamento falharam e toda a esperança de uma interação produtiva já passou, ou quando o usuário solicita explicitamente que Claude encerre o bate-papo”, continua a equipe da Anthropic na postagem do blog.

“Os cenários em que isso ocorreria são extremos e raros — a grande maioria dos usuários não notaria ou seria afetada por esse recurso em qualquer uso normal do produto, mesmo ao discutir questões altamente controversas com Claude.”

Embora o usuário não possa mais enviar novas mensagens nessa conversa, isso não o impedirá de iniciar outra conversa em sua conta. Para lidar com a potencial perda de uma conversa longa, os usuários ainda poderão editar mensagens anteriores e tentar recuperá-las para criar um novo ramo da conversa.

Este é um aplicativo bastante exclusivo da Anthropic. ChatGPT و Gemini و GrokOs três concorrentes mais próximos de Claude não tinham nada parecido disponível e, embora todos oferecessem outras medidas de proteção, não foram tão longe.

Claude