Um novo estudo revela por que o ChatGPT continua a fabricar informações.

Um dia, eu estava trocando ideias com ChatGPT De repente, ele começou uma longa história fictícia que não tinha nada a ver com meus prompts. Era tão ridícula que me fez rir. Ultimamente, não tenho visto erros como esse com prompts de texto, mas ainda os vejo com bastante frequência com a geração de imagens.

Por que os chatbots continuam tentando adivinhar quando não deveriam?

Pesquisas sugerem que um problema estrutural está causando essas alucinações; a raiz do problema vem dos padrões e tabelas de classificação que avaliam modelos de IA e recompensam respostas confiantes.

Em outras palavras, quando um chatbot diz "Não sei", ele é penalizado no teste. Isso significa que os modelos são ativamente incentivados a sempre fornecer uma resposta, mesmo que não tenham certeza se ela está correta.

Na prática, isso torna seu assistente inteligente mais propenso a adivinhar em vez de reconhecer a incerteza. Isso pode ser inofensivo para consultas simples do dia a dia. Mas em situações mais delicadas, de perguntas médicas a aconselhamento financeiro, esses erros de confiança podem rapidamente se transformar em riscos reais.

Como usuário experiente, é por isso que sempre verifico os fatos e pergunto ao chatbot sobre a fonte. Às vezes, se a informação parece absurda e eu pergunto sobre a fonte, o chatbot diz algo como "Boa observação!" ou algo parecido, sem admitir que estava errado.

Os modelos mais novos não são imunes.

Curiosamente, o artigo da OpenAI descobriu que modelos focados em inferência, como o3 e o4-mini, na verdade apresentam alucinações com mais frequência do que alguns modelos mais antigos. Por quê? Porque eles geralmente produzem mais afirmações, o que significa mais oportunidades de erro.

Portanto, só porque um modelo é “mais inteligente” em inferência não significa necessariamente que ele seja mais verdadeiro sobre o que não sabe.

Qual é a solução para este problema?

Pesquisadores acreditam que a solução está em mudar a forma como avaliamos e medimos a IA. Em vez de penalizar modelos por dizerem "não tenho certeza", testes mais valiosos deveriam recompensar respostas calibradas, indicações de incerteza ou a capacidade de consultar outras fontes.

Isso pode significar que seu futuro chatbot pode se proteger mais, confiando menos na abordagem "Esta é a resposta" e mais na abordagem "Isto é o que eu acho, mas não tenho certeza". Pode parecer mais lento, mas pode reduzir significativamente erros prejudiciais. Isso prova que o pensamento crítico da nossa parte ainda é importante.

Quão importante isso é para você?

Se você usa chatbots populares como ChatGPT, Gemini, Claude ou Grok, provavelmente já teve "alucinações". Esta pesquisa sugere que o problema não está apenas no modelo em si, mas sim na forma como ele é testado — como um jogo de azar para ver quem consegue estar certo na maioria das vezes.

Para os usuários, isso significa que precisamos ter cuidado e considerar as respostas da IA como uma primeira sugestão, não a palavra final. Para os desenvolvedores, isso é um sinal de que é hora de repensar como medimos o sucesso, para que os futuros assistentes de IA possam reconhecer o que não sabem, em vez de cometer erros críticos.

ChatGPT