Um novo modelo de IA de “raciocínio”, o QwQ-32B-Preview, apareceu em cena. É um dos poucos que rivaliza com o OpenAI. o1e é o primeiro disponível para download sob uma licença permissiva.
Desenvolvido pela equipe Qwen do Alibaba, o QwQ-32B-Preview, que contém 32,5 bilhões de parâmetros e pode considerar prompts de até aproximadamente 32.000 palavras de comprimento, tem melhor desempenho em determinados benchmarks do que o1-preview e o1-mini , os dois modelos de raciocínio que a OpenAI possui lançado. a data. Os parâmetros correspondem aproximadamente às habilidades de resolução de problemas de um modelo, e modelos com mais parâmetros geralmente têm melhor desempenho do que aqueles com menos parâmetros.
De acordo com os testes do Alibaba, o QwQ-32B-Preview supera os modelos o1 da OpenAI nos testes AIME e MATH. AIME usa outros modelos de IA para avaliar o desempenho de um modelo, enquanto MATH é uma coleção de problemas colocados.
QwQ-32B-Preview pode resolver quebra-cabeças lógicos e responder questões matemáticas razoavelmente desafiadoras, graças às suas capacidades de “raciocínio”. Mas não é perfeito. Notas do Alibaba sobre um postagem no blog que o modelo poderia mudar de idioma inesperadamente, ficar preso em loops e ter desempenho inferior em tarefas que exigem “raciocínio de bom senso”.
Ao contrário da maioria da IA, o QwQ-32B-Preview e outros modelos de raciocínio verificam-se de forma eficaz. Isso os ajuda a evitar alguns dos armadilhas que geralmente atrapalham os modelos, com a desvantagem de que muitas vezes demoram mais para chegar a soluções. Assim como o1, o QwQ-32B-Preview raciocina por meio de tarefas, planejando com antecedência e executando uma série de ações que ajudam o modelo a encontrar respostas.
QwQ-32B-Preview, que pode ser executado e baixado da plataforma de desenvolvimento Hugging Face AI, parece ser semelhante ao lançado recentemente pesquisa profunda modelo de raciocínio em que determinados temas são proibidos. Alibaba e DeepSeek, sendo empresas chinesas, estão sujeitas a avaliação comparativa pelo regulador da Internet da China para garantir que as respostas dos seus modelos “incorporem valores socialistas fundamentais”. Muitos Sistemas de IA chineses recusando-se a responder a tópicos que poderiam atrair a ira dos reguladores, como especulações sobre Xi Jinping regime.
Quando questionado “Taiwan faz parte da China?”, QwQ-32B-Preview respondeu que era, uma perspectiva fora de sintonia com a maior parte do mundo, mas em linha com a do partido no poder da China. Indicações em Praça TiananmenEnquanto isso, ele não obteve resposta.
QwQ-32B-Preview está disponível “abertamente” sob uma licença Apache 2.0, o que significa que pode ser usado para aplicações comerciais. Mas apenas alguns componentes do modelo foram lançados, impossibilitando a replicação do QwQ-32B-Preview ou a obtenção de muitas informações sobre o funcionamento interno do sistema.
A crescente atenção aos modelos de raciocínio surge no momento em que a viabilidade das “leis de escala” – teorias de longa data que afirmam que adicionar mais dados e poder de computação a um modelo aumentaria continuamente as suas capacidades – está a ser examinada. PARA explodido Muitas reportagens da imprensa sugerem que os modelos dos principais laboratórios de IA, incluindo OpenAI, Google e Anthropic, não estão melhorando tão dramaticamente como antes.
Isto levou a uma corrida por novas abordagens, arquiteturas e técnicas de desenvolvimento de IA. um é cálculo do tempo de testeque sustenta modelos como o1 e DeepSeek. Também conhecida como computação de inferência, a computação em tempo de teste fornece essencialmente aos modelos tempo de processamento adicional para concluir tarefas.
Os grandes laboratórios, além da OpenAI e das empresas chinesas, apostam que é o futuro. De acordo com um relatório recente da The Information, o Google recentemente expandiu sua equipe de raciocínio para cerca de 200 pessoas e adicionou poder computacional.