Essa pode ser a fonte de conhecimento do novo ChatGPT

Equipe Noticiar

Abr 2, 2025 - 12:30

Essa pode ser a fonte de conhecimento do novo ChatGPT

Empresas como a OpenAI, dona do ChatGPT, foram acusadas de usar conteúdo protegido por direitos autorais para treinar seus modelos de inteligência artificial.

Mas agora, um relatório divulgado pela AI Disclosures Project faz uma revelação importante sobre o tema.

A organização de vigilância de IA afirma que a companhia tem usado cada vez mais obras que não são públicas e que não foram licenciadas para o processo. Isso pode aumentar o número de processos judiciais relacionados ao assunto.

Companhia de mídia dos EUA estaria sendo utilizada

Os modelos de IA são treinados com uma grande quantidade de dados.
Todos os resultados apresentados pela ferramenta são embasados em alguma obra que foi utilizada durante o seu treinamento.
Por isso, um chatbot não cria nada novo.
Ele apenas usa sua imensa biblioteca para responder ao que é pedido.
O novo artigo afirma que a OpenAI provavelmente treinou seu modelo GPT-4o em livros da O’Reilly Media, uma companhia de mídia dos EUA.

OpenAI, dona do ChatGPT, já é alvo de processos pelo uso de obras sem autorização (Imagem: Mamun sheikh K/Shutterstock)

Leia mais

Como se chegou a esta conclusão

Os pesquisadores usaram um método chamado DE-COP, introduzido pela primeira vez em um estudo acadêmico em 2024, projetado para detectar conteúdo protegido por direitos autorais nos dados de treinamento dos modelos de linguagem.

Também conhecido como “ataque de inferência de associação”, ela testa se um modelo pode distinguir de forma confiável textos de autoria humana de versões parafraseadas geradas por IA do mesmo texto. Se puder, isso sugere que o modelo pode ter conhecimento prévio do texto a partir de seus dados de treinamento.

app do ChatGPT em um smartphone — Chatbot da OpenAI é um dos mais utilizados no mundo (Imagem: Primakov/Shutterstock)

Os coautores do artigo – O’Reilly, Strauss e o pesquisador de IA Sruly Rosenblat – dizem que investigaram o conhecimento do GPT-4o, GPT-3.5 Turbo e de outros modelos da OpenAI sobre os livros da O’Reilly Media. Eles usaram 13.962 trechos de parágrafos de 34 livros para estimar a probabilidade de que um determinado trecho tenha sido incluído no conjunto de dados de treinamento de um modelo.

Os resultados apontam que o GPT-4o “reconheceu” muito mais conteúdo de livros da O’Reilly pago do que os modelos mais antigos da OpenAI, especificamente o GPT-3.5 Turbo. A OpenAI não se pronunciou sobre o caso até o momento.

O post Essa pode ser a fonte de conhecimento do novo ChatGPT apareceu primeiro em Olhar Digital.

Fonte: Olhar Digital