Um novo estudo revela por que o ChatGPT continua a fabricar informações.

Um dia, eu estava trocando ideias com ChatGPT De repente, ele começou uma longa história fictícia que não tinha nada a ver com meus prompts. Era tão ridícula que me fez rir. Ultimamente, não tenho visto erros como esse com prompts de texto, mas ainda os vejo com bastante frequência com a geração de imagens.

Esses momentos aleatórios em que o chatbot se desvia da tarefa são conhecidos como "alucinações". O estranho é que esse bot confia nas respostas erradas que dá, o que é uma das maiores fraquezas dos assistentes de IA atuais. No entanto, Novo estudo da OpenAI No entanto, essas falhas não são aleatórias, mas são um resultado direto de como os modelos são treinados e avaliados.

Segurando o telefone com o logotipo do ChatGPT

Por que os chatbots continuam tentando adivinhar quando não deveriam?

Logotipo ChatGPT no telefone na frente do robô pensando

Pesquisas sugerem que um problema estrutural está causando essas alucinações; a raiz do problema vem dos padrões e tabelas de classificação que avaliam modelos de IA e recompensam respostas confiantes.

Em outras palavras, quando um chatbot diz "Não sei", ele é penalizado no teste. Isso significa que os modelos são ativamente incentivados a sempre fornecer uma resposta, mesmo que não tenham certeza se ela está correta.

Na prática, isso torna seu assistente inteligente mais propenso a adivinhar em vez de reconhecer a incerteza. Isso pode ser inofensivo para consultas simples do dia a dia. Mas em situações mais delicadas, de perguntas médicas a aconselhamento financeiro, esses erros de confiança podem rapidamente se transformar em riscos reais.

Como usuário experiente, é por isso que sempre verifico os fatos e pergunto ao chatbot sobre a fonte. Às vezes, se a informação parece absurda e eu pergunto sobre a fonte, o chatbot diz algo como "Boa observação!" ou algo parecido, sem admitir que estava errado.

Os modelos mais novos não são imunes.

Imagem do ChatGPT-5 em um teclado

Curiosamente, o artigo da OpenAI descobriu que modelos focados em inferência, como o3 e o4-mini, na verdade apresentam alucinações com mais frequência do que alguns modelos mais antigos. Por quê? Porque eles geralmente produzem mais afirmações, o que significa mais oportunidades de erro.

Portanto, só porque um modelo é “mais inteligente” em inferência não significa necessariamente que ele seja mais verdadeiro sobre o que não sabe.

Qual é a solução para este problema?

Pessoa codificando no computador

Pesquisadores acreditam que a solução está em mudar a forma como avaliamos e medimos a IA. Em vez de penalizar modelos por dizerem "não tenho certeza", testes mais valiosos deveriam recompensar respostas calibradas, indicações de incerteza ou a capacidade de consultar outras fontes.

Isso pode significar que seu futuro chatbot pode se proteger mais, confiando menos na abordagem "Esta é a resposta" e mais na abordagem "Isto é o que eu acho, mas não tenho certeza". Pode parecer mais lento, mas pode reduzir significativamente erros prejudiciais. Isso prova que o pensamento crítico da nossa parte ainda é importante.

Quão importante isso é para você?

Pessoa digitando no teclado do laptop

Se você usa chatbots populares como ChatGPT, Gemini, Claude ou Grok, provavelmente já teve "alucinações". Esta pesquisa sugere que o problema não está apenas no modelo em si, mas sim na forma como ele é testado — como um jogo de azar para ver quem consegue estar certo na maioria das vezes.

Para os usuários, isso significa que precisamos ter cuidado e considerar as respostas da IA ​​como uma primeira sugestão, não a palavra final. Para os desenvolvedores, isso é um sinal de que é hora de repensar como medimos o sucesso, para que os futuros assistentes de IA possam reconhecer o que não sabem, em vez de cometer erros críticos.

Comentários estão fechados.