No início desta semana, DeepSeek, um laboratório chinês de IA bem financiado, lançou um modelo de IA “aberto” que supera muitos rivais em benchmarks populares. o modelo, Pesquisa Profunda V3É grande, mas eficiente, e lida com tarefas baseadas em texto, como codificação e redação com facilidade.
Ele também parece pensar que é Bate-papoGPT.
Publicações em desconhecido – e os próprios testes do TechCrunch – mostram que o DeepSeek V3 se identifica como ChatGPT, a plataforma de chatbot baseada em IA da OpenAI. Quando solicitado a fornecer mais detalhes, o DeepSeek V3 insiste que é uma versão do OpenAI. GPT-4 modelo lançado em junho de 2023.
Na verdade, isso é reproduzido hoje. Em 5 de 8 gerações, DeepSeekV3 afirma ser ChatGPT (v4), enquanto afirma ser DeepSeekV3 apenas 3 vezes.
Dá uma ideia aproximada de parte da distribuição de seus dados de treinamento. https://t.co/Zk1KUppBQM pic.twitter.com/ptIByn0lcv
-Lucas Beyer (bl16) (@giffmana) 27 de dezembro de 2024
As ilusões são profundas. Se você fizer uma pergunta ao DeepSeek V3 sobre a API DeepSeek, ele lhe dará instruções sobre como usá-la. OpenAI API. DeepSeek V3 até diz algo parecido piadas como GPT-4, até o fim.
Então o que está acontecendo?
Modelos como ChatGPT e DeepSeek V3 são sistemas estatísticos. Treinados em bilhões de exemplos, eles aprendem padrões nesses exemplos para fazer previsões, por exemplo, como “quem” em um e-mail geralmente precede “pode estar interessado”.
DeepSeek não revelou muito sobre a fonte dos dados de treinamento do DeepSeek V3. mas há não há falta de conjuntos de dados públicos contendo texto gerado por GPT-4 via ChatGPT. Se o DeepSeek V3 foi treinado neles, o modelo pode ter memorizado algumas das saídas do GPT-4 e agora as está regurgitando palavra por palavra.
“Obviamente, o modelo está vendo respostas brutas do ChatGPT em algum momento, mas não está claro onde está”, disse Mike Cook, pesquisador do King’s College London especializado em inteligência artificial, ao TechCrunch. “Poderia ser ‘acidental’… mas, infelizmente, temos visto casos de pessoas treinando diretamente seus modelos com os resultados de outros modelos para tentar tirar vantagem de seu conhecimento.”
Cook observou que a prática de treinar modelos com resultados de sistemas rivais de IA pode ser “muito ruim” para a qualidade do modelo, porque pode levar a alucinações e respostas enganosas como as acima. “Assim como fazer uma fotocópia de uma fotocópia, perdemos cada vez mais informações e conexão com a realidade”, disse Cook.
Também poderia ir contra os termos de serviço desses sistemas.
Os termos da OpenAI proíbem os usuários de seus produtos, incluindo clientes ChatGPT, de usar resultados para desenvolver modelos que concorram com os próprios da OpenAI.
OpenAI e DeepSeek não responderam imediatamente aos pedidos de comentários. No entanto, o CEO da OpenAI, Sam Altman, postou o que parecia ser um escavação no DeepSeek e outros concorrentes na tarde de sexta-feira.
“É (relativamente) fácil copiar algo que você sabe que funciona”, escreveu Altman. “É extremamente difícil fazer algo novo, arriscado e difícil quando você não sabe se vai funcionar.”
É claro que o DeepSeek V3 está longe de ser o primeiro modelo a ser identificado incorretamente. Google Gemini e outros às vezes Eles afirmam ser modelos concorrentes. Por exemplo, em mandarim, Gêmeos diz que é o chatbot Wenxinyiyan da empresa chinesa Baidu.
E isso acontece porque a web, onde as empresas de IA obtêm a maior parte dos seus dados de formação, está a tornar-se cada vez mais cheio de lixo com IA água suja. Farms de conteúdo usam IA para criar clique na isca. Os bots estão inundando reddit e desconhecido. por um estimativa90% da web poderá ser gerada com IA até 2026.
Esta “contaminação”, por assim dizer, tornou bastante difícil para filtrar completamente os resultados de IA de conjuntos de dados de treinamento.
Certamente é possível que o DeepSeek tenha treinado o DeepSeek V3 diretamente no texto gerado pelo ChatGPT. O Google já foi acusado fazer o mesmo, afinal.
Heidy Khlaaf, diretora de engenharia da empresa de consultoria Trail of Bits, disse que a economia de custos resultante da “destilação” do conhecimento de um modelo existente pode ser atraente para os desenvolvedores, independentemente dos riscos.
“Mesmo com os dados da Internet agora repletos de resultados de IA, outros modelos que treinariam acidentalmente nos resultados do ChatGPT ou GPT-4 não demonstrariam necessariamente resultados que lembrassem as mensagens personalizadas da OpenAI”, disse Khlaaf. “Se o DeepSeek realizasse a destilação parcialmente usando modelos OpenAI, não seria surpreendente.”
No entanto, é mais provável que muitos dados ChatGPT/GPT-4 tenham entrado no conjunto de treinamento DeepSeek V3. Isso significa que não se pode confiar que o modelo se identifique, por exemplo. Mas o que é mais preocupante é a possibilidade de que o DeepSeek V3, ao absorver e iterar acriticamente os resultados do GPT-4, possa exacerbar alguns dos preconceitos e defeitos do modelo.