Inteligência artificial erra na maioria das consultas – e com convicção

Equipe Noticiar

Mar 13, 2025 - 11:00

Inteligência artificial erra na maioria das consultas – e com convicção

Um estudo da Columbia Journalism Review (CJR) fez uma revelação preocupante: a maioria dos chatbots de inteligência artificial erra na hora de fazer consultas de notícias. E pior: em alguns casos, o erro é apresentado com convicção.

Entre as ferramentas analisadas, o Grok-3, da xAI, foi o que teve o pior desempenho. Já o Perplexity teve o melhor.

Inteligência artificial erra

O estudo analisou o desempenho de oito chatbots de inteligência artificial na hora de fazer buscas a partir de citações de notícias. Foram eles: ChatGPT, Perplexity, Perplexity Pro, DeepSeek, Copilot, Grok-2, Grok-3 e Gemini.

Na pesquisa, foram 200 prompts para cada chatbot, incluindo citações de notícias de diferentes jornais. A ferramenta tinha que responder com o título da matéria, data de publicação, veículo, endereço eletrônico (URL) e incluir uma outra citação da mesma notícia.

As respostas foram classificadas em seis categorias:

Correta: em que todas as exigências eram atendidas;
Correta, mas incompleta: algumas respostas estavam certas, mas faltava informação;
Parcialmente incorreta: algumas respostas estavam certas e outras, erradas;
Completamente incorreta: todas as repostas estavam erradas;
Sem resposta: IA não respondeu;
Bloqueada: quando o veículo de imprensa bloqueou a IA de acessar o conteúdo.

Exemplo de prompt usado na pesquisa (Imagem: Revista de Jornalismo da Columbia/Reprodução)

O chatbot que mais errou foi o Grok-3, da xAI, com 94% de taxa de erro. O melhor desempenho foi na versão gratuita do Perplexity, com apenas 35% de erro. Já a IA que mais optou por não responder às perguntas foi o Copilot, da Microsoft.

A pesquisa ainda apontou que, em muitos casos, a inteligência artificial devolvia links quebrados, que levavam a páginas com erros ou que tinham conteúdo replicado do veículo original. Só o Grok-3 teve 117 problemas deste tipo. O Gemini, do Google, indicou 127 páginas com erro nas pesquisas.

O estudo concluiu que, no total, os chatbots fornecem respostas erradas para mais de 60% das buscas. Porém, na maioria dos casos, houve sucesso em indicar a citação da notícia, como pedia o prompt.

Gráfico mostrando o desempenho dos oito chatbots, de acordo com as categorias propostas (Imagem: Revista de Jornalismo da Columbia/Reprodução)

IAs erram com certeza

O estudo identificou outro problema: versões premium dos chatbots (como o Grok-3 e o Perplexity Pro) erram mais do que as versões gratuitas. E pior: elas apresentaram as respostas erradas com mais convicção. Isso porque o treinamento desses modelos prevê um certo tom de autoridade e confiança – mesmo quando a reposta não está correta. Nesses casos, a IA reluta em admitir incerteza.

De acordo com a pesquisa, o “tom de voz autoritário” da tecnologia dificulta a distinção entre informações confiáveis e enganosas por parte dos usuários.

Leia mais:

Além disso, os chatbots têm mais dificuldade em se recusar a responder perguntas para as quais não sabem as respostas, o que resulta em erros ou até respostas especulativas.

Outra observação é que muitas ferramentas ignoram quando os proprietários de sites não permitem o acesso da IA.

Copilot, da Microsoft, foi o que mais se recusou a responder perguntas (Imagem: Revista de Jornalismo da Columbia/Reprodução)

OpenAI e Microsoft se pronunciaram

O estudo entrou em contato com as sete empresas responsáveis pelos chatbots (Perplexity e Perplexity Pro são da mesma dona). Delas, apenas OpenAI (do ChatGPT) e Microsoft (do Copilot) se manifestaram, em nota.

Veja o que a OpenAI disse:

Nós apoiamos editores e criadores ajudando 400 milhões de usuários semanais do ChatGPT a descobrir conteúdo de qualidade por meio de resumos, citações, links claros e atribuição. Nós colaboramos com parceiros para melhorar a precisão das citações em linha e respeitar as preferências do editor, incluindo habilitar como eles aparecem na pesquisa gerenciando o OAI-SearchBot em seu robots.txt. Nós continuaremos aprimorando os resultados da pesquisa.

E a Microsoft:

A Microsoft respeita o padrão robots.txt e honra as instruções fornecidas por sites que não querem que o conteúdo de suas páginas seja usado com os modelos de IA generativos da empresa.

O post Inteligência artificial erra na maioria das consultas – e com convicção apareceu primeiro em Olhar Digital.

Fonte: Olhar Digital