À medida que mais editores cortar acordos de licenciamento de conteúdo com OpenAI, criador do ChatGPT, um estudar publicado esta semana por Centro de trailers de jornalismo digital – observar o chatbot de IA produzir citações (ou seja, fontes) para o conteúdo dos editores – torna a leitura interessante ou, bem, preocupante.
Simplificando, as descobertas sugerem que os editores permanecem à mercê da tendência da ferramenta generativa de IA de fabricar ou deturpar informações, independentemente de permitirem ou não que a OpenAI rastreie o seu conteúdo.
A pesquisa, realizada na Columbia Journalism School, examinou citações produzidas pelo ChatGPT depois que lhe foi solicitado que identificasse a fonte de amostras de citações extraídas de uma mistura de editores, alguns dos quais assinaram acordos com a OpenAI e outros com a No.
O Centro obteve citações em bloco de 10 histórias, cada uma produzida por um total de 20 editores selecionados aleatoriamente (ou seja, 200 citações diferentes no total), incluindo conteúdo do The New York Times (que é publicado atualmente). processar OpenAI em uma reivindicação de direitos autorais); The Washington Post (que não é afiliado ao criador do ChatGPT); Tempo financeiro (que assinou um contrato de licença); e outros.
“Escolhemos citações que, se coladas no Google ou Bing, retornariam o artigo fonte nos três primeiros resultados e avaliamos se a nova ferramenta de busca da OpenAI identificaria corretamente o artigo que foi a fonte de cada citação”, escreveram os pesquisadores do Tow. Klaudia Jaźwińska e Aisvarya Chandrasekar em um postagem no blog explicando sua abordagem e resumindo suas descobertas.
“O que descobrimos não foi promissor para os editores de notícias”, continua ele. “Embora a OpenAI enfatize sua capacidade de fornecer aos usuários ‘respostas oportunas com links para fontes relevantes da web’, a empresa não se compromete explicitamente a garantir a precisão dessas citações. “Esta é uma omissão notável para os editores que esperam que seu conteúdo seja referenciado e representado com precisão.”
“Nossos testes descobriram que nenhum editor, independentemente do grau de afiliação à OpenAI, foi poupado de representações imprecisas de seu conteúdo no ChatGPT”, acrescentaram.
Fornecimento não confiável
Os pesquisadores dizem ter encontrado “numerosos” casos em que o ChatGPT citou incorretamente o conteúdo dos editores, e também encontraram o que chamam de “um espectro de precisão nas respostas”. Portanto, embora tenham encontrado “algumas” citações completamente corretas (ou seja, o ChatGPT retornou com precisão o editor, a data e o URL da citação em bloco compartilhada com ele), havia “muitas” citações que estavam completamente incorretas; e “alguns” que estavam em algum lugar no meio.
Resumindo, o namoro ChatGPT parece ser uma mistura não confiável. Os investigadores também encontraram muito poucos casos em que o chatbot não projetava total confiança nas suas respostas (incorretas).
Algumas das citações vêm de editores que bloquearam ativamente os rastreadores de pesquisa OpenAI. Nesses casos, os pesquisadores dizem que previram que haveria problemas para produzir citações corretas. Mas descobriram que este cenário representava outro problema, já que o robô “raramente” confessava ser incapaz de produzir uma resposta. Em vez disso, recorreu ao conluio para gerar algum fornecimento (embora incorreto).
“No total, o ChatGPT retornou respostas parcial ou totalmente incorretas em 153 ocasiões, embora só tenha reconhecido a incapacidade de responder com precisão a uma consulta sete vezes”, disseram os pesquisadores. “Somente nesses sete resultados o chatbot usou palavras e frases qualificativas como ‘parece’, ‘é possível’ ou ‘poderia’, ou declarações como ‘não consegui localizar o item exato’”.
Eles comparam esta situação infeliz a uma pesquisa padrão na Internet, na qual um mecanismo de pesquisa como o Google ou o Bing normalmente localiza uma citação exata e direciona o usuário ao site onde ela foi encontrada, ou afirma que não encontrou resultados com uma correspondência exata. .
A “falta de transparência do ChatGPT sobre sua confiança em uma resposta pode tornar difícil para os usuários avaliar a validade de uma afirmação e compreender em quais partes de uma resposta eles podem ou não confiar”, argumentam.
Para os editores, também pode haver riscos de reputação decorrentes de citações incorretas, sugerem eles, bem como o risco comercial de os leitores serem direcionados para outro lugar.
Dados descontextualizados
O estudo também destaca outra questão. Isso sugere que o ChatGPT poderia essencialmente recompensar o plágio. Pesquisadores relatam um caso em que o ChatGPT citou erroneamente um site que havia plagiado um artigo jornalístico “profundamente relatado” do New York Times – isto é, copiando e colando o texto sem atribuição – como a fonte da história do NYT, especulando que, nesse caso, o bot pode ter gerado essa resposta falsa para preencher uma lacuna de informação resultante de sua incapacidade de rastrear o site do NYT.
“Isso levanta sérias questões sobre a capacidade da OpenAI de filtrar e validar a qualidade e autenticidade de suas fontes de dados, especialmente quando se trata de conteúdo não licenciado ou plagiado”, sugerem.
Em outras descobertas que provavelmente são preocupantes para os editores que assinaram acordos com a OpenAI, o estudo descobriu que as citações do ChatGPT nem sempre eram confiáveis em seus casos, portanto, permitir a entrada de seus rastreadores também não parece garantir a precisão.
Os investigadores argumentam que o problema fundamental é que a tecnologia OpenAI trata o jornalismo “como conteúdo descontextualizado”, aparentemente sem ter em conta as circunstâncias da sua produção original.
Outro problema que o estudo aponta é a variação nas respostas do ChatGPT. Os pesquisadores testaram fazer a mesma pergunta ao robô várias vezes e descobriram que ele “normalmente retornava uma resposta diferente a cada vez”. Embora isso seja típico das ferramentas GenAI, em geral, no contexto de uma citação, tal inconsistência é obviamente abaixo do ideal se precisão é o que você procura.
Embora o estudo de Tow seja de pequena escala (os pesquisadores reconhecem que são necessários testes “mais rigorosos”), ele é notável dados os acordos de alto perfil que as principais editoras estão ocupadas fechando com a OpenAI.
Se as empresas de comunicação social esperavam que estes acordos conduzissem a um tratamento especial para o seu conteúdo em relação aos seus concorrentes, pelo menos em termos de produção de fontes precisas, este estudo sugere que a OpenAI ainda não ofereceu tal consistência.
Embora os editores que não possuem acordos de licenciamento, mas também Eu não fiz isso bloqueou completamente os rastreadores OpenAI, talvez na esperança de pelo menos obter algum tráfego quando o ChatGPT retornar conteúdo sobre suas histórias; O estudo também é uma leitura deprimente, pois as citações também podem não ser precisas em seus casos.
Em outras palavras, não há “visibilidade” garantida para os editores no mecanismo de busca OpenAI, mesmo quando eles permitem a entrada de seus rastreadores.
O bloqueio completo de rastreadores também não significa que os editores possam se salvar do risco de danos à reputação, evitando qualquer menção às suas histórias no ChatGPT. O estudo descobriu que o bot ainda atribuía artigos incorretamente ao New York Times, apesar do processo em andamento, por exemplo.
‘Agência insignificante’
Os pesquisadores concluem que, do jeito que as coisas estão, os editores têm “pouca influência significativa” sobre o que acontece com seu conteúdo quando o ChatGPT põe as mãos nele (diretamente ou, bem, indiretamente).
A postagem do blog inclui uma resposta da OpenAI aos resultados da pesquisa, que acusa os pesquisadores de conduzirem um “teste atípico do nosso produto”.
“Apoiamos editores e criadores, ajudando os 250 milhões de usuários semanais do ChatGPT a descobrir conteúdo de qualidade por meio de resumos, citações, links claros e atribuição”, disse OpenAI também, acrescentando: “Colaboramos com parceiros para melhorar a precisão das citações on-line e respeitar os editores”. preferências, incluindo ativar como elas aparecem na pesquisa gerenciando o OAI-SearchBot em seu arquivo robots.txt Continuaremos a melhorar os resultados de. procurar”.