Inteligência artificial erra na maioria das consultas – e com convicção

Um estudo da Columbia Journalism Review (CJR) fez uma revelação preocupante: a maioria dos chatbots de inteligência artificial erra na hora de fazer consultas de notícias. E pior: em alguns casos, o erro é apresentado com convicção.
Entre as ferramentas analisadas, o Grok-3, da xAI, foi o que teve o pior desempenho. Já o Perplexity teve o melhor.

Inteligência artificial erra
O estudo analisou o desempenho de oito chatbots de inteligência artificial na hora de fazer buscas a partir de citações de notícias. Foram eles: ChatGPT, Perplexity, Perplexity Pro, DeepSeek, Copilot, Grok-2, Grok-3 e Gemini.
Na pesquisa, foram 200 prompts para cada chatbot, incluindo citações de notícias de diferentes jornais. A ferramenta tinha que responder com o título da matéria, data de publicação, veículo, endereço eletrônico (URL) e incluir uma outra citação da mesma notícia.
As respostas foram classificadas em seis categorias:
- Correta: em que todas as exigências eram atendidas;
- Correta, mas incompleta: algumas respostas estavam certas, mas faltava informação;
- Parcialmente incorreta: algumas respostas estavam certas e outras, erradas;
- Completamente incorreta: todas as repostas estavam erradas;
- Sem resposta: IA não respondeu;
- Bloqueada: quando o veículo de imprensa bloqueou a IA de acessar o conteúdo.

O chatbot que mais errou foi o Grok-3, da xAI, com 94% de taxa de erro. O melhor desempenho foi na versão gratuita do Perplexity, com apenas 35% de erro. Já a IA que mais optou por não responder às perguntas foi o Copilot, da Microsoft.
A pesquisa ainda apontou que, em muitos casos, a inteligência artificial devolvia links quebrados, que levavam a páginas com erros ou que tinham conteúdo replicado do veículo original. Só o Grok-3 teve 117 problemas deste tipo. O Gemini, do Google, indicou 127 páginas com erro nas pesquisas.
O estudo concluiu que, no total, os chatbots fornecem respostas erradas para mais de 60% das buscas. Porém, na maioria dos casos, houve sucesso em indicar a citação da notícia, como pedia o prompt.

IAs erram com certeza
O estudo identificou outro problema: versões premium dos chatbots (como o Grok-3 e o Perplexity Pro) erram mais do que as versões gratuitas. E pior: elas apresentaram as respostas erradas com mais convicção. Isso porque o treinamento desses modelos prevê um certo tom de autoridade e confiança – mesmo quando a reposta não está correta. Nesses casos, a IA reluta em admitir incerteza.
De acordo com a pesquisa, o “tom de voz autoritário” da tecnologia dificulta a distinção entre informações confiáveis e enganosas por parte dos usuários.
Leia mais:
- ‘Erros’ da IA estão possibilitando novas descobertas científicas
- Inteligência artificial: conheça os pontos negativos e perigos da IA
- Chatbots ainda não sabem dizer “não sei” — e isso é um problema
Além disso, os chatbots têm mais dificuldade em se recusar a responder perguntas para as quais não sabem as respostas, o que resulta em erros ou até respostas especulativas.
Outra observação é que muitas ferramentas ignoram quando os proprietários de sites não permitem o acesso da IA.

OpenAI e Microsoft se pronunciaram
O estudo entrou em contato com as sete empresas responsáveis pelos chatbots (Perplexity e Perplexity Pro são da mesma dona). Delas, apenas OpenAI (do ChatGPT) e Microsoft (do Copilot) se manifestaram, em nota.
Veja o que a OpenAI disse:
Nós apoiamos editores e criadores ajudando 400 milhões de usuários semanais do ChatGPT a descobrir conteúdo de qualidade por meio de resumos, citações, links claros e atribuição. Nós colaboramos com parceiros para melhorar a precisão das citações em linha e respeitar as preferências do editor, incluindo habilitar como eles aparecem na pesquisa gerenciando o OAI-SearchBot em seu robots.txt. Nós continuaremos aprimorando os resultados da pesquisa.
E a Microsoft:
A Microsoft respeita o padrão robots.txt e honra as instruções fornecidas por sites que não querem que o conteúdo de suas páginas seja usado com os modelos de IA generativos da empresa.
O post Inteligência artificial erra na maioria das consultas – e com convicção apareceu primeiro em Olhar Digital.
Qual é a sua reação?






