Alguns apregoam modelos mundiais, também conhecidos como simuladores mundiais, como a próxima grande novidade na IA.
Pioneiro da IA, Fei-Fei Li Laboratórios mundiais arrecadou US$ 230 milhões para construir “grandes modelos mundiais” e DeepMind contratado um dos criadores do gerador de vídeo OpenAI, Sorapara trabalhar em “simuladores mundiais”. (Sora foi libertado na segunda-feira; Aqui estão algumas primeiras impressões..)
Mas que diabos são essas coisas?
Os modelos mundiais são inspirados nos modelos mentais do mundo que os humanos desenvolvem naturalmente. Os nossos cérebros pegam nas representações abstratas dos nossos sentidos e transformam-nas numa compreensão mais concreta do mundo que nos rodeia, produzindo o que chamamos de “modelos” muito antes de a IA adotar a expressão. As previsões que nosso cérebro faz com base nesses modelos influenciam a forma como percebemos o mundo.
PARA papel dos pesquisadores de IA David Ha e Jürgen Schmidhuber dão o exemplo de um batedor de beisebol. Os rebatedores têm milissegundos para decidir como rebater, menos do que o tempo que os sinais visuais levam para chegar ao cérebro. A razão pela qual eles conseguem acertar uma bola rápida a 160 quilômetros por hora é porque podem prever instintivamente para onde a bola irá, dizem Ha e Schmidhuber.
“Para jogadores profissionais, tudo isso acontece inconscientemente”, escrevem a dupla de pesquisadores. “Seus músculos movem o taco reflexivamente na hora e no lugar certos, de acordo com as previsões de seus modelos internos. “Eles podem agir rapidamente de acordo com suas previsões do futuro, sem a necessidade de implementar conscientemente possíveis cenários futuros para formar um plano.”
São estes aspectos de raciocínio subconsciente dos modelos mundiais que alguns acreditam serem pré-requisitos para a inteligência de nível humano.
Moldando o mundo
Embora o conceito já exista há décadas, os modelos globais ganharam popularidade recentemente, em parte devido às suas aplicações promissoras no campo do vídeo generativo.
A maioria, senão todos, dos vídeos gerados por IA desviam-se para um território de vale misterioso. Olhe para eles por tempo suficiente e alguns estranho Isso acontecerá, como se membros se torcessem e se fundissem.
Embora um modelo generativo treinado em anos de vídeo possa prever com precisão que uma bola de basquete vai quicar, na verdade ele não tem ideia do motivo, assim como os modelos de linguagem não entendem realmente os conceitos por trás das palavras e frases. Mas um modelo mundial que tenha pelo menos uma compreensão básica do motivo pelo qual a bola de basquete salta daquela maneira será melhor para mostrar que ela faz isso.
Para permitir esse tipo de percepção, modelos do mundo são treinados com uma variedade de dados, incluindo fotografias, áudio, vídeo e texto, com a intenção de criar representações internas de como o mundo funciona e a capacidade de raciocinar sobre as consequências de ações. .
“O espectador espera que o mundo que vê se comporte de maneira semelhante à sua realidade”, disse Alex Mashrabov, ex-chefe de IA da Snap e CEO da Snap. Higgsfieldque está construindo modelos generativos para vídeo, disse ele. “Se uma pena cai com o peso de uma bigorna ou uma bola de boliche é lançada a centenas de metros de altura, é chocante e tira o espectador do momento. Com um modelo de mundo robusto, em vez de um criador definir como cada objeto deve se mover (o que é tedioso, complicado e uma perda de tempo), o modelo entenderá isso.”
Mas uma melhor geração de vídeo é apenas a ponta do iceberg para os modelos globais. Pesquisadores, incluindo o cientista-chefe de IA da Meta, Yann LeCun, dizem que os modelos poderão um dia ser usados para previsões e planejamento sofisticados, tanto no domínio digital quanto no físico.
em um falar No início deste ano, LeCun descreveu como um modelo mundial poderia ajudar a alcançar um objetivo desejado através do raciocínio. Um modelo com uma representação básica de um “mundo” (por exemplo, um vídeo de uma sala suja), dado um objectivo (uma sala limpa), poderia conceber uma sequência de acções para atingir esse objectivo (utilizar aspiradores para varrer, limpar lavar a louça, esvaziar o lixo) não porque seja um padrão que você observou, mas porque você sabe em um nível mais profundo como passar do sujo ao limpo.
“Precisamos de máquinas que entendam o mundo; (Máquinas) que podem lembrar coisas, que têm intuição, bom senso, coisas que podem raciocinar e planejar no mesmo nível que os humanos”, disse LeCun. “Apesar do que você pode ter ouvido de algumas das pessoas mais entusiasmadas, os atuais sistemas de IA não são capazes de fazer nada disso”.
Embora LeCun estime que estamos a pelo menos uma década de distância dos modelos mundiais que ele imagina, os modelos mundiais atuais mostram-se promissores como simuladores da física elementar.
A OpenAI observa em um blog que Sora, que considera um modelo de mundo, pode simular ações como um pintor deixando pinceladas em uma tela. Modelos como Sora… e Sora em si – também pode realmente simular vídeo jogos. Por exemplo, Sora pode representar uma interface de usuário e um mundo de jogo semelhante ao Minecraft.
Modelos de mundos futuros podem gerar mundos 3D sob demanda para jogos, fotografia virtual e muito mais, disse o cofundador do World Labs, Justin Johnson, em um comunicado. episódio do podcast a16z.
“Já temos a capacidade de criar mundos virtuais e interativos, mas isso custa centenas e centenas de milhões de dólares e muito tempo de desenvolvimento”, disse Johnson. “(Modelos mundiais) permitirão que você obtenha não apenas uma imagem ou um clipe, mas também um mundo 3D totalmente simulado, vibrante e interativo.”
Obstáculos altos
Embora o conceito seja atraente, muitos desafios técnicos atrapalham.
Treinar e executar modelos mundiais requer um enorme poder de computação, mesmo em comparação com a quantidade atualmente utilizada pelos modelos generativos. Embora alguns dos modelos de linguagem mais recentes possam ser executados em um smartphone moderno, o Sora (possivelmente um dos primeiros modelos do mundo) exigiria milhares de GPUs para treinar e funcionar, especialmente se seu uso se tornar comum.
Os modelos mundiais, como todos os modelos de IA, também são alucinar – e internalize preconceitos em seus dados de treinamento. Um modelo global treinado principalmente em vídeos de tempo ensolarado em cidades europeias pode ter dificuldade em compreender ou representar cidades coreanas em condições de neve, por exemplo, ou simplesmente fazê-lo incorretamente.
A falta generalizada de dados de formação ameaça agravar estes problemas, diz Mashrabov.
“Temos visto padrões realmente limitados em gerações de pessoas de um determinado tipo ou raça”, disse ele. “Os dados de treinamento para um modelo global precisam ser amplos o suficiente para cobrir um conjunto diversificado de cenários, mas também muito específicos quanto a onde a IA pode compreender profundamente as nuances desses cenários.”
Em um recente correspondênciaCristóbal Valenzuela, CEO da startup de IA Runway, afirma que problemas de dados e engenharia impedem que os modelos atuais capturem com precisão o comportamento dos habitantes de um mundo (por exemplo, humanos e animais). “Os modelos precisarão gerar mapas consistentes do ambiente”, disse ele, “e a capacidade de navegar e interagir nesses ambientes”.
No entanto, se todos os principais obstáculos forem ultrapassados, Mashrabov acredita que os modelos mundiais poderiam ligar “mais firmemente” a IA ao mundo real, levando a avanços não só na geração de mundos virtuais, mas também na robótica e na tecnologia de tomada de decisões.
Eles também poderiam levar a robôs mais capazes.
Os robôs de hoje são limitados no que podem fazer porque não têm consciência do mundo ao seu redor (ou de seus próprios corpos). Os modelos mundiais poderiam dar-lhes essa consciência, disse Mashrabov, pelo menos até certo ponto.
“Com um modelo mundial avançado, uma IA poderia desenvolver uma compreensão pessoal de qualquer cenário em que se encontrasse”, disse ele, “e começar a raciocinar possíveis soluções”.
TechCrunch tem um boletim informativo focado em IA! Cadastre-se aqui para recebê-lo em sua caixa de entrada todas as quartas-feiras.