Pular para o conteúdo

Alucinações na IA: por que elas acontecem e como evitar ser enganado

Andrew Correa |

 

Screenshot 2025-12-02 at 11.48.50

Como Reduzir Alucinações em Modelos de IA: o Que a Pesquisa Mais Recente Revela


Na OpenAI, temos trabalhado intensamente para tornar sistemas de IA mais úteis e confiáveis. Mesmo com a evolução dos modelos de linguagem, um desafio segue difícil de resolver completamente: as alucinações quando um modelo gera respostas confiantes, porém falsas. Nosso novo artigo de pesquisa argumenta que isso acontece porque os métodos atuais de treinamento e avaliação acabam recompensando o chute em vez do reconhecimento de incerteza.

O ChatGPT também alucina. O GPT-5 apresenta bem menos alucinações, especialmente em raciocínio, mas elas ainda podem ocorrer. Alucinações continuam sendo um desafio fundamental para todos os grandes modelos de linguagem e seguimos trabalhando para reduzi-las.

O que são alucinações?


Alucinações são respostas plausíveis, mas incorretas, geradas por modelos de linguagem. Elas podem surgir até em perguntas simples. Por exemplo, quando perguntamos a um chatbot amplamente utilizado o título da tese de doutorado de Adam Tauman Kalai (um dos autores do artigo), ele forneceu três títulos diferentes todos errados. Ao perguntar o aniversário dele, o modelo deu três datas distintas, também todas incorretas.

Quando o modelo acerta na sorte


As alucinações persistem em parte porque os métodos de avaliação atuais criam incentivos errados. Embora as avaliações não causem alucinações diretamente, elas medem desempenho de um jeito que incentiva o modelo a arriscar um palpite em vez de admitir que não sabe.

É parecido com uma prova de múltipla escolha: se você não sabe a resposta, chutar pode te dar pontos; deixar em branco garante zero. Do mesmo modo, ao avaliar apenas acerto, o modelo é estimulado a arriscar nunca a dizer não sei.

Por exemplo: se o modelo não sabe o aniversário de alguém, chutar “10 de setembro” tem uma chance de 1 em 365 de estar correto. Dizer “não sei” garante zero. Em milhares de questões, o modelo que chuta parece melhor nos placares do que o modelo cuidadoso.

Para perguntas com uma única resposta correta, há três categorias: respostas corretas, erros e abstenções (quando o modelo não arrisca). Abster-se faz parte da humildade, um dos valores centrais da OpenAI. Mas a maioria das avaliações prioriza somente a taxa de acertos, mesmo que erros sejam piores do que abstenções. Nosso Model Spec deixa claro: é melhor indicar incerteza ou pedir esclarecimento do que fornecer uma resposta confiante e possivelmente incorreta.

Um exemplo do SimpleQA, extraído do GPT-5 System Card:

Métrica gpt-5-thinking-mini OpenAI o4-mini
Taxa de abstenção 52% 1%
Taxa de acurácia 22% 24%
Taxa de erro 26% 75%

 

Embora o o4-mini tenha acurácia um pouco maior, sua taxa de erro (alucinação) é muito mais alta. Chutar melhora acurácia, mas aumenta erros graves.

Em dezenas de benchmarks, os placares destacam apenas acurácia criando uma falsa dicotomia entre certo e errado. Em testes simples, alguns modelos chegam perto de 100% de acerto. Porém, em avaliações reais e complexas, a acurácia sempre fica abaixo de 100%, pois existem perguntas impossíveis de responder por falta de informação, limitações do modelo ou ambiguidades que exigem esclarecimento.

Mesmo assim, rankings baseados apenas em acurácia dominam o setor, incentivando modelos que chutam. É por isso que, mesmo ficando mais avançados, modelos ainda alucinam.

Um jeito melhor de avaliar


A solução é direta: penalizar erros confiantes mais do que incerteza, e dar crédito parcial quando o modelo expressa incerteza de forma apropriada. Isso não é novo, provas tradicionais já aplicam penalidades para chutes errados. Pesquisadores também vêm explorando avaliações que consideram incerteza e calibração.

Mas nosso ponto é outro: não basta criar alguns novos testes sensíveis à incerteza. Os benchmarks amplamente utilizados precisam atualizar seu modelo de pontuação. Se os principais placares continuarem premiando palpites, os modelos continuarão aprendendo a chutar.

Por que as alucinações surgem no treinamento por predição da próxima palavra?


Mesmo entendendo por que as alucinações persistem, ainda resta a pergunta: de onde vêm esses erros tão específicos? Afinal, modelos raramente cometem outros tipos de erro, como ortografia ou parênteses desalinhados.

Isso tem a ver com os padrões presentes nos dados.

Modelos de linguagem aprendem inicialmente por meio da predição da próxima palavra, usando enormes volumes de texto. Nesse processo, não existem rótulos indicando se uma afirmação é verdadeira ou falsa, apenas exemplos de linguagem fluente. Isso torna difícil distinguir fatos válidos de inválidos.

Um paralelo útil: em classificação de imagens, se milhões de fotos de gatos/cães são rotuladas, o algoritmo aprende bem. Mas se cada foto fosse rotulada com o aniversário do animal, o erro seria inevitável, os dados seriam essencialmente aleatórios.

Da mesma forma, padrões de ortografia podem ser aprendidos, mas fatos raros e específicos (como datas) não seguem padrões previsíveis, gerando alucinações. Idealmente, etapas posteriores ao pré-treinamento deveriam corrigir isso, mas ainda não conseguem totalmente por causa dos incentivos mencionados antes.

Conclusões


A análise estatística do artigo ajuda a esclarecer o que são alucinações e corrige alguns equívocos comuns:

Mito: Alucinações desaparecerão quando a acurácia chegar a 100%.
Achado: Acurácia nunca chegará a 100%, pois algumas perguntas são impossíveis de responder.

Mito: Alucinações são inevitáveis.
Achado: Não são o modelo pode simplesmente dizer “não sei”.

Mito: Evitar alucinações exige inteligência que só modelos enormes têm.
Achado: Modelos menores podem ser melhores em reconhecer seus limites.

Mito: Alucinações são um bug misterioso dos modelos modernos.
Achado: Sabemos exatamente os mecanismos estatísticos que as geram.

Mito: Precisamos apenas de um bom benchmark contra alucinações.
Achado: Esses benchmarks já existem o problema é que centenas de avaliações antigas continuam penalizando humildade e recompensando chutes.

Na Monostate, seguimos a mesma filosofia:

Modelos confiáveis começam com incentivos corretos, dados bem estruturados e transparência sobre incertezas. É por isso que nossas soluções de IA personalizada do treinamento de modelos ao uso de agentes especializados, são projetadas para reduzir erros confiantes, priorizar precisão contextual e permitir que cada empresa tenha um modelo que sabe quando responder e quando pedir mais informações. Em um mundo onde decisões automatizadas importam cada vez mais, construir IA que assume responsabilidade pelo que sabe e pelo que não sabe, não é apenas técnica é maturidade operacional.

 

Compartilhar este post