Um laboratório chinês criou o que parece ser um dos modelos de IA “abertos” mais poderosos até hoje.
o modelo, Pesquisa Profunda V3foi desenvolvido pela empresa de inteligência artificial DeepSeek e lançado na quarta-feira sob uma licença permissiva que permite aos desenvolvedores baixá-lo e modificá-lo para a maioria dos aplicativos, inclusive comerciais.
DeepSeek V3 pode lidar com uma variedade de cargas de trabalho e tarefas baseadas em texto, como codificação, tradução e redação de ensaios e e-mails a partir de uma mensagem descritiva.
De acordo com os testes de benchmark internos do DeepSeek, o DeepSeek V3 supera tanto os modelos para download “abertos” disponíveis quanto os modelos de IA “fechados” que só podem ser acessados por meio de uma API. Em um subconjunto de concursos de codificação hospedados no Codeforces, uma plataforma para concursos de programação, o DeepSeek supera modelos como o Meta. Ligue para 3.1 405BOpenAI GPT-4oe Qwen 2,5 72B do Alibaba.
O DeepSeek V3 também esmaga a concorrência no Aider Polgyglot, um teste projetado para medir, entre outras coisas, se um modelo pode escrever com sucesso um novo código que se integre ao código existente.
DeepSeek-V3!
60 tokens/segundo (3 vezes mais rápido que V2!)
Compatibilidade da API intacta
Modelos e documentos totalmente de código aberto
Parâmetros do MoE 671B
Parâmetros 37B ativados
Treinado com tokens 14.8T de alta qualidadeSupera o Llama 3.1 405b em quase todos os benchmarks https://t.co/OiHu17hBSI pic.twitter.com/jVwJU07dqf
— Gordito ♨️ (@kimmonismus) 26 de dezembro de 2024
DeepSeek afirma que DeepSeek V3 foi treinado em um conjunto de dados de 14,8 bilhões de tokens. Na ciência de dados, os tokens são usados para representar bits de dados brutos; 1 milhão de tokens equivalem a cerca de 750.000 palavras.
Não é apenas o conjunto de treinamento que é enorme. O DeepSeek V3 é enorme: 685 bilhões de parâmetros. (Os parâmetros são as variáveis internas que os modelos usam para fazer previsões ou decisões). Isso é cerca de 1,6 vezes o tamanho do Llama 3.1 405B, que possui 405 bilhões de parâmetros.
A contagem de parâmetros frequentemente (mas nem sempre) se correlaciona com a habilidade; Modelos com mais parâmetros tendem a superar modelos com menos parâmetros. Mas modelos grandes também exigem hardware mais robusto para funcionar. Uma versão não otimizada do DeepSeek V3 precisaria de um banco de GPUs de última geração para responder perguntas em velocidades razoáveis.
Embora não seja o modelo mais prático, o DeepSeek V3 é uma conquista em alguns aspectos. DeepSeek conseguiu treinar o modelo usando uma GPU Nvidia H800 de data center em apenas dois meses, GPUs que empresas chinesas recentemente restrito pelo Departamento de Comércio dos EUA para compras. A empresa também afirma que gastou apenas US$ 5,576 milhões para treinar o DeepSeek V3, uma fração do custo de desenvolvimento de modelos como o GPT-4 da OpenAI.
A desvantagem é que as opiniões políticas do modelo são um pouco filtradas. Pergunte ao DeepSeek V3 sobre a Praça Tiananmen, por exemplo, e ele não responderá.
A DeepSeek, sendo uma empresa chinesa, está sujeita a avaliação comparativa pelo regulador da Internet da China para garantir que as respostas dos seus modelos “incorporem valores socialistas fundamentais”. Muitos Sistemas de IA chineses declínio para responder a questões que poderiam atrair a ira dos reguladores, como a especulação sobre o Xi Jinping regime.
DeepSeek, que recentemente introduziu o DeepSeek-R1, uma resposta ao modelo de “raciocínio” o1 da OpenAI, é uma organização curiosa. É apoiado pela High-Flyer Capital Management, um fundo de hedge quantitativo chinês que utiliza inteligência artificial para informar suas decisões comerciais.
Os modelos do DeepSeek forçaram concorrentes como ByteDance, Baidu e Alibaba a reduzir os preços de uso de alguns de seus modelos e tornar outros totalmente gratuitos.
A High-Flyer constrói seus próprios clusters de servidores para treinamento de modelos, um dos mais recentes supostamente Possui 10.000 GPUs Nvidia A100 e custa 1 bilhão de ienes (~US$ 138 milhões). Fundada por Liang Wenfeng, formado em ciência da computação, a High-Flyer pretende alcançar IA “superinteligente” por meio de sua organização DeepSeek.
em um entrevista No início deste ano, Liang descreveu o código aberto como um “ato cultural” e caracterizou a IA de código fechado como a OpenAI como um fosso “temporário”. “Mesmo a abordagem de código fechado da OpenAI não impediu que outros se atualizassem”, observou ele.
De fato.