Início Tecnologia O3 da OpenAI sugere que os modelos de IA estão sendo escalonados...

O3 da OpenAI sugere que os modelos de IA estão sendo escalonados de novas maneiras, mas os custos também

23
0

No mês passado, os fundadores e investidores de IA disseram ao TechCrunch que agora estamos no “segunda era das leis de escala,” apontando como os métodos estabelecidos para melhorar os modelos de IA estavam apresentando retornos decrescentes. Um novo método promissor que sugeriram que poderia sustentar o progresso foi “cronograma de teste”, o que parece ser o que está por trás do desempenho de Modelo OpenAI o3 – mas tem suas próprias desvantagens.

Grande parte do mundo da IA ​​considerou o anúncio do modelo o3 da OpenAI como prova de que o progresso no dimensionamento da IA ​​​​não “atingiu um muro”. O modelo o3 tem um bom desempenho nos benchmarks, superando significativamente todos os outros modelos em um teste de capacidade geral chamado ARC-AGI e pontuando 25% em um teste. exame de matemática difícil em que nenhum outro modelo de IA obteve pontuação superior a 2%.

É claro que nós do TechCrunch estamos encarando tudo isso com cautela até que possamos experimentar o o3 por nós mesmos (muito poucos tentaram isso até agora). Mas mesmo antes do lançamento do o3, o mundo da IA ​​já está convencido de que algo grande mudou.

O co-criador da série OpenAI, Noam Brown, observou na sexta-feira que a startup está anunciando os ganhos impressionantes da o3 apenas três meses após a startup anunciar o o1, um período de tempo relativamente curto para tal salto no desempenho.

“Temos todos os motivos para acreditar que esta trajetória continuará”, disse Brown em um comunicado. twittar.

O cofundador da Anthropic, Jack Clark, disse em um postagem no blog na segunda-feira que o3 é uma evidência de que o “progresso da IA ​​será mais rápido em 2025 do que em 2024”. (Observe que é benéfico para a Anthropic, especialmente sua capacidade de levantar capital, sugerir que as leis de escalonamento de IA continuem, mesmo que Clark esteja complementando um concorrente.)

No próximo ano, Clark diz que o mundo da IA ​​reunirá o escalonamento em tempo de teste e os métodos tradicionais de escalonamento de pré-treinamento para obter ainda mais retorno dos modelos de IA. Talvez ele esteja sugerindo que a Anthropic e outros fornecedores de modelos de IA lançarão seus próprios modelos de raciocínio em 2025, assim como O Google fez isso na semana passada.

Aumentar o tempo de teste significa que o OpenAI está usando mais computação durante a fase de inferência do ChatGPT, o período de tempo após pressionar Enter em uma mensagem. Não está claro exatamente o que está acontecendo nos bastidores: a OpenAI está usando mais chips de computador para responder às perguntas de um usuário, executando chips de inferência mais poderosos ou executando esses chips por períodos mais longos (10 a 15 minutos por vez em alguns casos). antes que a IA produza uma resposta. Não sabemos todos os detalhes de como o o3 foi criado, mas esses benchmarks são os primeiros sinais de que o dimensionamento no tempo de teste pode funcionar para melhorar o desempenho dos modelos de IA.

Embora o3 possa dar uma crença renovada no progresso das leis de escalonamento de IA, o mais novo modelo da OpenAI também usa um nível de computação nunca visto antes, o que significa um preço mais alto por resposta.

“Talvez a única ressalva importante aqui seja entender que uma das razões pelas quais o O3 é muito melhor é que custa mais dinheiro para ser executado em tempo de inferência: a capacidade de usar a computação em tempo de teste significa que em alguns problemas pode ser transformado em computação uma resposta melhor. ”Clark escreve em seu blog. “Isso é interessante porque tornou os custos de operação de sistemas de IA um pouco menos previsíveis; anteriormente, era possível calcular quanto custava servir um modelo generativo simplesmente observando o modelo e o custo de gerar um determinado resultado.”

Clark e outros apontaram o desempenho do o3 no benchmark ARC-AGI (um teste difícil usado para avaliar o progresso na AGI) como um indicador do seu progresso. Vale ressaltar que passar neste teste, segundo seus criadores, não significa um modelo de IA. alcançou AGI, mas sim uma forma de medir o progresso em direção ao objetivo nebuloso. Dito isto, o modelo o3 superou as pontuações de todos os modelos de IA anteriores que realizaram o teste, marcando 88% em uma de suas tentativas. O próximo melhor modelo de IA da OpenAI, o1, obteve apenas 32%.

Gráfico mostrando o desempenho da série ou OpenAI no teste ARC-AGI. (Crédito da imagem: Prêmio ARC)

Mas o eixo x logarítmico deste gráfico pode ser alarmante para alguns. A versão de alta pontuação do o3 usou mais de US$ 1.000 em cálculos para cada tarefa. Os modelos o1 usaram cerca de US$ 5 em computação por tarefa, e o o1-mini usou apenas alguns centavos.

O criador do benchmark ARC-AGI, François Chollet, escreve em um blog que a OpenAI usou cerca de 170 vezes mais computação para gerar aquela pontuação de 88%, em comparação com a versão de alta eficiência do o3, que obteve pontuação apenas 12% menor. A versão de alta pontuação do o3 usou mais de US$ 10.000 em recursos para concluir o teste, tornando muito caro competir pelo Prêmio ARC, uma competição invicta para modelos de IA passarem no teste ARC.

No entanto, Chollet diz que o3 ainda foi um avanço para os modelos de IA.

“o3 é um sistema capaz de se adaptar a tarefas nunca encontradas antes, possivelmente aproximando-se do desempenho de nível humano no domínio ARC-AGI”, disse Chollet no blog. “É claro que tal generalidade tem um custo elevado e ainda não seria totalmente económica: um humano poderia ser pago para resolver tarefas ARC-AGI por cerca de 5 dólares por tarefa (sabemos, conseguimos), consumindo apenas alguns cêntimos”. em energia.”

É prematuro insistir no preço exato de tudo isso: vimos os preços dos modelos de IA despencarem no ano passado, e a OpenAI ainda não anunciou quanto custará realmente o o3. No entanto, estes preços indicam quanta computação é necessária para quebrar, mesmo que ligeiramente, as barreiras de desempenho estabelecidas pelos principais modelos de IA da atualidade.

Isto levanta algumas questões. Para que é realmente usado o o3? E quanto mais computação é necessária para obter mais benefícios em torno da inferência com o4, o5 ou qualquer outro nome da OpenAI para seus próximos modelos de raciocínio?

Não parece que o o3, ou seus sucessores, sejam o “driver diário” de alguém como o GPT-4o ou a Pesquisa Google. Esses modelos simplesmente usam muita computação para responder pequenas perguntas ao longo do dia, como: “Como o Cleveland Browns pode chegar aos playoffs de 2024?”

Em vez disso, parece que os modelos de IA com cálculo de tempo de teste em escala só podem ser bons para questões gerais como: “Como o Cleveland Browns pode se tornar uma franquia do Super Bowl em 2027?” Mesmo assim, os altos custos de computação só valerão a pena se você for o gerente geral do Cleveland Browns e estiver usando essas ferramentas para tomar decisões importantes.

As instituições com recursos financeiros profundos podem ser as únicas que podem arcar com o custo do O3, pelo menos no início, como aponta Ethan Mollick, professor da Wharton, em um artigo. twittar.

Já vimos a OpenAI lançar um Nível de US$ 200 para usar uma versão de alto processamento do o1mas a startup tem A empresa está considerando criar planos de assinatura que custam até US$ 2.000. Ao ver quanta computação o3 usa, você pode entender por que a OpenAI consideraria isso.

Mas há desvantagens em usar o3 para trabalhos de alto impacto. Como aponta Chollet, o3 não é AGI e ainda falha em algumas tarefas muito simples que um humano faria facilmente.

Isto não é necessariamente surpreendente, uma vez que grandes modelos de linguagem Ainda tenho um grande problema com alucinações.qual o3 e o cálculo do tempo de teste não parecem ter sido resolvidos. É por isso que ChatGPT e Gemini incluem isenções de responsabilidade abaixo de cada resposta que produzem, pedindo aos usuários que não confiem nas respostas pelo valor nominal. Presumivelmente, se a AGI algum dia fosse alcançada, não seria necessária tal isenção de responsabilidade.

Uma maneira de desbloquear mais ganhos de escala no tempo de teste poderia ser melhores chips de inferência de IA. Não faltam novas empresas que lidam precisamente com isto, como a Groq ou a Cerebras, enquanto outras estão a conceber chips de IA mais económicos, como o MatX. O sócio geral da Andreessen Horowitz, Anjney Midha, disse anteriormente ao TechCrunch que espera que essas startups desempenhem um papel maior no dimensionamento do tempo de teste no futuro.

Embora o3 seja uma melhoria notável no desempenho dos modelos de IA, ele levanta várias novas questões sobre uso e custos. Dito isso, o desempenho da o3 acrescenta credibilidade à afirmação de que a computação em tempo de teste é a próxima melhor maneira da indústria de tecnologia de dimensionar modelos de IA.



Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here