Quando uma empresa lança um novo gerador de vídeo de IA, não demora muito para que alguém o use para fazer um vídeo do ator Will Smith comendo espaguete.
Tornou-se uma espécie de meme e também de referência: ver se um novo gerador de vídeo pode retratar de forma realista Smith engolindo uma tigela de macarrão. O próprio Smith parodiado a tendência em uma postagem no Instagram em fevereiro.
Google I See 2 conseguiu isso.
Agora finalmente comemos espaguete. pic.twitter.com/AZO81w8JC0
-Jerrod Lew (@jerrod_lew) 17 de dezembro de 2024
Will Smith e macarrão é apenas um entre vários estranhos marcos “não oficiais” para conquistar a comunidade de IA em 2024. Um desenvolvedor de 16 anos criou um aplicativo que dá controle de IA sobre o Minecraft e testa sua capacidade de projetar estruturas. Por outro lado, um programador britânico criou uma plataforma onde a IA joga jogos como Pictionary e Connect 4 entre si.
Não é que não existam mais evidências acadêmicas do desempenho da IA. Então, por que os mais estranhos explodiram?
Por um lado, muitos dos benchmarks de IA padrão da indústria não dizem muito ao cidadão comum. As empresas costumam citar a capacidade de sua IA de responder perguntas nos exames das Olimpíadas de Matemática ou de encontrar soluções plausíveis para problemas de nível de doutorado. No entanto, a maioria das pessoas (incluindo este servidor) usa chatbots para coisas como Responda a e-mails e perguntas básicas..
As medidas colaborativas da indústria não são necessariamente melhores ou mais informativas.
Tomemos, por exemplo, Arena de chatbotsuma referência pública que muitos desenvolvedores e entusiastas de IA seguem obsessivamente. O Chatbot Arena permite que qualquer pessoa na web avalie o desempenho da IA em tarefas específicas, como criar um aplicativo da web ou gerar uma imagem. Mas os avaliadores tendem a não ser representativos (a maioria vem dos círculos da indústria tecnológica e de IA) e votam com base em preferências pessoais que são difíceis de definir.
Ethan Mollick, professor de administração da Wharton, observou recentemente em um correspondência Em X há outro problema com muitos benchmarks da indústria de IA: eles não comparam o desempenho de um sistema com o de uma pessoa média.
“O facto de não existirem 30 referências diferentes de diferentes organizações em medicina, direito, qualidade de aconselhamento, etc., é uma verdadeira vergonha, uma vez que as pessoas utilizam sistemas para estas coisas de qualquer maneira”, escreveu Mollick.
Benchmarks de IA bizarros como Connect 4, Minecraft e Will Smith comendo espaguete são certamente Não empírico, ou mesmo generalizável. Só porque uma IA passou no teste de Will Smith não significa que ela terá um bom desempenho em gerar, digamos, um hambúrguer.
Um especialista com quem conversei sobre benchmarks de IA sugeriu que a comunidade de IA se concentrasse nos impactos posteriores da IA, em vez de em sua capacidade em domínios restritos. Isso é sensato. Mas tenho a sensação de que os marcos estranhos não irão desaparecer tão cedo. Eles não são apenas divertidos: quem não gosta de ver a IA construir castelos no Minecraft? – mas são fáceis de entender. E como diz meu colega Max Zeff escrevi sobre recentementeA indústria continua a lutar para transformar uma tecnologia tão complexa como a IA em marketing digerível.
A única pergunta que tenho em mente é: que novos marcos estranhos se tornarão virais em 2025?