Um teste conhecido para inteligência geral artificial (AGI) está perto de ser resolvido, mas os criadores do teste dizem que isso aponta para falhas no design do teste, e não para um avanço genuíno na pesquisa.
Em 2019, François Cholletuma figura importante no mundo da IA, apresentou o benchmark ARC-AGI, abreviação de “Abstract and Reasoning Corpus for Artificial General Intelligence”. Projetado para avaliar se um sistema de IA pode adquirir com eficiência novas habilidades fora dos dados nos quais foi treinado. ARC-AGIFrançois diz que continua a ser o único teste de IA para medir o progresso em direção à inteligência geral (embora outros foram propostas.)
Até este ano, a IA com melhor desempenho só conseguia resolver pouco menos de um terço das tarefas do ARC-AGI. Chollet culpou o foco da indústria nos grandes modelos de linguagem (LLMs), que ele acredita não serem capazes de “raciocinar” real.
“Os LLMs lutam com a generalização, porque dependem inteiramente da memorização”, disse ele. ditado em uma série de postagens sobre X em fevereiro. “Eles detalham tudo o que não estava nos seus dados de treinamento.”
Para Chollet, os LLMs são máquinas estatísticas. Treinados com muitos exemplos, eles aprendem padrões nesses exemplos para fazer previsões, por exemplo, como “quem” em um e-mail geralmente precede “pode estar interessado”.
Chollet afirma que embora os LLMs possam ser capazes de memorizar “padrões de raciocínio”, é improvável que sejam capazes de gerar “novos raciocínios” baseados em situações novas. “Se você precisa aprender muitos exemplos de um padrão, mesmo que implícito, para aprender uma representação reutilizável, você está memorizando”, Chollet argumento em outra postagem.
Para incentivar a pesquisa além dos LLMs, em junho, o cofundador de Chollet e Zapier, Mike Knoop, lançou um programa de US$ 1 milhão. competência para construir uma IA de código aberto capaz de vencer o ARC-AGI. De 17.789 inscrições, os melhores desempenhos pontuaram 55,5%, cerca de 20% acima do artilheiro em 2023, embora abaixo do limite de 85% de “nível humano” necessário para vencer.
No entanto, isso não significa que estejamos 20% mais próximos do AGI, diz Knoop.
Hoje anunciamos os vencedores do Prêmio ARC 2024. Também publicamos um extenso relatório técnico sobre o que aprendemos com a competição (link no tweet abaixo).
O estado da arte passou de 33% para 55,5%, o maior aumento em um único ano que vimos desde 2020. O…
-François Chollet (@fchollet) 6 de dezembro de 2024
em um postagem no blogKnoop disse que muitas das submissões à ARC-AGI conseguiram encontrar uma solução com “força bruta”, sugerindo que uma “grande fracção” das tarefas da ARC-AGI “(não) transmitem muitos sinais úteis ao público. ” em geral”. inteligência.”
ARC-AGI consiste em problemas semelhantes a quebra-cabeças nos quais uma IA tem que gerar a grade correta de “respostas” a partir de uma coleção de quadrados de cores diferentes. Os problemas foram concebidos para forçar a IA a se adaptar a novos problemas que não tinha visto antes. Mas não está claro se eles estão conseguindo isso.
“(ARC-AGI) não mudou desde 2019 e não é perfeito”, reconheceu Knoop em sua postagem.
François e Knoop também se enfrentaram crítica por exagerar na ARC-AGI como referência para alcançar a AGI, especialmente porque a própria definição de AGI está agora a ser fortemente questionada. Um membro da equipe da OpenAI recentemente recuperado que a AGI “já” foi alcançada se a AGI for definida como IA “melhor do que a maioria dos humanos na maioria das tarefas”.
Knoop e Chollet afirmam que planejam lançar um benchmark ARC-AGI de segunda geração para abordar essas questões, juntamente com uma competição em 2025. “Continuaremos a direcionar os esforços da comunidade de pesquisa para o que consideramos os mais importantes problemas não resolvidos em IA. ”e acelerar o cronograma em direção ao AGI”, escreveu Chollet em um X. correspondência.
As soluções podem não ser fáceis. Se as deficiências do primeiro teste ARC-AGI servirem de indicação, definir inteligência para IA será igualmente intratável, e polarizando – como tem sido para os humanos.