Uma das técnicas mais utilizadas para tornar os modelos de IA mais eficientes, a quantização, tem limites, e a indústria pode estar se aproximando deles rapidamente.
No contexto da IA, a quantização refere-se à redução do número de bits (as menores unidades que um computador pode processar) necessários para representar a informação. Considere esta analogia: quando alguém pergunta a hora, você provavelmente diria “meio-dia”, e não “oh, mil e duzentos, um segundo e quatro milissegundos”. Isso é quantização; Ambas as respostas estão corretas, mas uma é um pouco mais precisa. A quantidade de precisão que você realmente precisa depende do contexto.
Os modelos de IA consistem em vários componentes que podem ser quantificados; em particular, parâmetros, as variáveis internas que os modelos usam para fazer previsões ou decisões. Isto é conveniente, considerando que os modelos realizam milhões de cálculos quando são executados. Modelos quantizados com menos bits representando seus parâmetros são menos matematicamente e, portanto, computacionalmente exigentes. (Para ser claro, este é um processo diferente da “destilação”, que é uma poda de parâmetros mais complexa e seletiva.)
Mas a quantificação pode ter mais compromissos do que se supunha anteriormente.
O modelo cada vez menor
De acordo com um estudar De acordo com pesquisadores de Harvard, Stanford, MIT, Databricks e Carnegie Mellon, os modelos quantizados apresentam pior desempenho se a versão original não quantizada do modelo for treinada durante um longo período com uma grande quantidade de dados. Em outras palavras, em determinado momento, pode ser melhor simplesmente treinar um modelo menor em vez de criar um modelo grande.
Isto pode significar más notícias para as empresas de IA que treinam modelos extremamente grandes (conhecidos por melhorar a qualidade das respostas) e depois os quantificam num esforço para tornar o seu serviço mais barato.
Os efeitos já estão se manifestando. Há alguns meses, desenvolvedores e acadêmico relataram que a quantificação de Meta Ligue 3 O modelo tendia a ser “mais prejudicial” em comparação com outros modelos, potencialmente devido à forma como foi treinado.
“Na minha opinião, o custo número um para todos na IA é e continuará a ser a inferência, e o nosso trabalho mostra que uma forma importante de reduzi-lo não funcionará para sempre”, disse Tanishq Kumar, estudante de matemática de Harvard e primeiro autor do livro. o estudo. papel, ele disse ao TechCrunch.
Ao contrário da crença popular, a inferência do modelo de IA (executar um modelo, como quando Bate-papoGPT responde a uma pergunta: geralmente é mais caro do que o treinamento de modelo. Considere, por exemplo, que o Google gastou um Meu querido 191 milhões de dólares para treinar um de seus carros-chefe Gêmeos modelos: certamente uma soma principesca. Mas se a empresa usasse um modelo para gerar respostas de apenas 50 palavras para metade de todas as consultas da Pesquisa Google, gastaria por muito pouco 6 bilhões de dólares por ano.
Os principais laboratórios de IA adotaram modelos de treinamento em conjuntos de dados massivos sob a suposição de que a “ampliação” (aumentando a quantidade de dados e computação usados no treinamento) levará a uma IA cada vez mais capaz.
Por exemplo, Meta treinou o Llama 3 com um pool de 15 bilhões de tokens. (Fichas representam bits de dados brutos; 1 milhão de tokens equivale a aproximadamente 750.000 palavras). A geração anterior, Llama 2, foi treinada com “apenas” 2 bilhões de tokens. No início de dezembro, Meta lançou um novo modelo, Llama 3.3 70Bo que, segundo a empresa, “melhora o desempenho principal a um custo significativamente menor”.
A evidência sugere que a expansão acaba por produzir retornos decrescentes; Antropo e Google supostamente Treinei recentemente modelos enormes que não atendiam às expectativas dos benchmarks internos. Mas há poucos sinais de que a indústria esteja pronta para se afastar significativamente destas abordagens de expansão arraigadas.
Quão preciso, exatamente?
Portanto, se os laboratórios relutam em treinar modelos em conjuntos de dados menores, existe uma maneira de tornar os modelos menos suscetíveis à degradação? Provavelmente. Kumar diz que ele e seus coautores descobriram que modelos de treinamento com “baixa precisão” podem torná-los mais robustos. Tenha paciência conosco por um momento enquanto mergulhamos um pouco.
“Precisão” aqui se refere ao número de dígitos que um tipo de dados numérico pode representar com precisão. Os tipos de dados são coleções de valores de dados, geralmente especificados por um conjunto de valores possíveis e operações permitidas; O tipo de dados FP8, por exemplo, usa apenas 8 bits para representar um número de ponto flutuante.
A maioria dos modelos atuais são treinados com 16 bits ou “meia precisão” e “quantizados após treinamento” com precisão de 8 bits. Certos componentes do modelo (por exemplo, seus parâmetros) são convertidos para um formato de menor precisão ao custo de alguma precisão. Pense nisso como fazer os cálculos com algumas casas decimais e depois arredondar para o décimo mais próximo, o que geralmente oferece o melhor dos dois mundos.
Fornecedores de hardware como a Nvidia estão buscando menor precisão na inferência de modelos quantizados. O novo chip Blackwell da empresa suporta precisão de 4 bits, especificamente um tipo de dados chamado FP4; A Nvidia apresentou isso como uma vantagem para data centers com restrição de memória e energia.
Mas uma precisão de quantização extremamente baixa pode não ser desejável. De acordo com Kumar, a menos que o modelo original seja incrivelmente grande em termos de número de parâmetros, precisões inferiores a 7 ou 8 bits podem sofrer uma redução notável na qualidade.
Se tudo isso parece um pouco técnico, não se preocupe, é mesmo. Mas o resultado final é simplesmente que os modelos de IA não são totalmente compreendidos e que os atalhos conhecidos que funcionam em muitos tipos de computação não funcionam aqui. Você não diria “meio-dia” se alguém perguntasse quando começou uma corrida de 100 metros, diria? Não é tão óbvio, claro, mas a ideia é a mesma:
“O ponto chave do nosso trabalho é que existem limitações que não podem ser ingenuamente contornadas”, concluiu Kumar. “Esperamos que nosso trabalho acrescente nuances à discussão que muitas vezes busca padrões cada vez mais baixos de precisão para treinamento e inferência.”
Kumar reconhece que o seu estudo e o dos seus colegas foram conduzidos numa escala relativamente pequena; Eles planejam testá-lo com mais modelos no futuro. Mas ele acredita que pelo menos uma ideia permanecerá: nada é gratuito quando se trata de reduzir custos de inferência.
“A precisão dos bits é importante e não é gratuita”, disse ele. “Não é possível reduzi-lo para sempre sem que os modelos sofram. Os modelos têm uma capacidade finita, portanto, em vez de tentar encaixar um trilhão de tokens em um modelo pequeno, acho que muito mais esforço será gasto na curadoria e filtragem meticulosa de dados, para que apenas os dados da mais alta qualidade sejam colocados em modelos menores. . “Estou otimista de que novas arquiteturas que visam deliberadamente estabilizar o treinamento de baixa precisão serão importantes no futuro.”
Esta história foi publicada originalmente em 17 de novembro de 2024 e atualizada em 23 de dezembro com novas informações.