É possível que uma IA treine apenas com dados gerados por outra IA? Pode parecer uma ideia maluca. Mas é algo que já existe há algum tempo e, à medida que se torna cada vez mais difícil obter dados novos e reais, tem vindo a ganhar terreno.
A Anthropic usou alguns dados sintéticos para treinar um de seus principais modelos, Soneto de Claude 3.5. Meta ajustou seu Ligue 3.1 modelos usando dados gerados por IA. E diz-se que a OpenAI obtém dados de treinamento sintéticos de o1seu modelo de “raciocínio”, para o próximo Órion.
Mas por que a IA precisa de dados em primeiro lugar e o que gentil De quais dados você precisa? E esses dados podem Na verdade Serão substituídos por dados sintéticos?
A importância das anotações
Os sistemas de IA são máquinas estatísticas. Treinados com muitos exemplos, eles aprendem os padrões desses exemplos para fazer previsões, como “quem” em um e-mail geralmente precede “pode estar interessado”.
As anotações, normalmente textos que rotulam o significado ou partes dos dados que esses sistemas ingerem, são uma peça-chave nesses exemplos. Eles servem como guias, “ensinando” um modelo para distinguir entre coisas, lugares e ideias.
Considere um modelo de classificação de fotos no qual são exibidas muitas fotos de cozinhas rotuladas com a palavra “cozinha”. À medida que for treinado, o modelo começará a fazer associações entre “culinária” e geral. características de cozinhas (por exemplo, contendo geladeiras e bancadas). Após o treinamento, diante de uma foto de uma cozinha que não constava nos exemplos iniciais, o modelo deverá ser capaz de identificá-la como tal. (É claro que se as imagens da cozinha fossem rotuladas como “vaca”, seriam identificadas como vacas, o que enfatiza a importância de uma boa anotação.)
O apetite pela IA e a necessidade de fornecer dados rotulados para o seu desenvolvimento disparou o mercado de serviços de anotação. Dimensões Pesquisa de Mercado estimativas que hoje vale 838,2 milhões de dólares e valerá 10.340 milhões de dólares nos próximos 10 anos. Embora não existam estimativas precisas de quantas pessoas estão envolvidas no trabalho de rotulagem, até 2022 papel define o número em “milhões”.
Grandes e pequenas empresas dependem de trabalhadores contratados por empresas de anotação de dados para criar rótulos para conjuntos de treinamento de IA. Alguns destes empregos pagam razoavelmente bem, especialmente se a rotulagem exigir conhecimentos especializados (por exemplo, conhecimentos de matemática). Outros podem ser exaustivos. Artilheiros em países em desenvolvimento Eles recebem apenas alguns dólares por hora, em médiasem qualquer benefício ou garantia de shows futuros.
Um poço de dados de secagem
Portanto, existem razões humanísticas para procurar alternativas aos rótulos gerados pelo homem. Por exemplo, a Uber está expandindo sua frota de Freelancers trabalharão em anotações de IA e rotulagem de dados. Mas também existem alguns práticos.
Os humanos só conseguem rotular muito rapidamente. Os artilheiros também têm preconceitos que pode se manifestar em suas anotações e, posteriormente, em qualquer modelo treinado nelas. Artilheiros fazem errosou obter tropeçou através de instruções de rotulagem. E pagar humanos para fazerem coisas é caro.
Dados em geral É caro, na verdade. A Shutterstock está cobrando dos fornecedores de IA dezenas de milhões de dólares pelo acesso aos seus arquivoenquanto Reddit tem Ganhou centenas de milhões licenciando dados para Google, OpenAI e outros.
Finalmente, os dados também são cada vez mais difíceis de adquirir.
A maioria dos modelos baseia-se em coleções massivas de dados públicos, dados que os proprietários optam cada vez mais por ocultar por medo de que os seus dados sejam plagiadoou que não receberão crédito ou atribuição por isso. Mais de 35% dos 1.000 principais sites do mundo agora bloqueia o web scraper OpenAI. E cerca de 25% dos dados provenientes de fontes de “alta qualidade” foram restringidos dos principais conjuntos de dados utilizados para treinar modelos, de acordo com um estudo recente. estudar encontrado.
Se a tendência atual de bloqueio de acesso continuar, o grupo de pesquisa Epoch AI projetos que os desenvolvedores ficarão sem dados para treinar modelos generativos de IA entre 2026 e 2032. Isso, combinado com o medo de ações judiciais de direitos autorais e material questionável A invasão de conjuntos de dados abertos forçou os fornecedores de IA a tomar decisões.
Alternativas sintéticas
À primeira vista, os dados sintéticos parecem ser a solução para todos estes problemas. Você precisa de notas? Gere-os. Mais dados de exemplo? Sem problemas. O céu é o limite.
E até certo ponto, isso é verdade.
“Se ‘os dados são o novo petróleo’, os dados sintéticos são apresentados como biocombustíveis, que podem ser criados sem as externalidades negativas do produto real”, disse Os Keyes, doutorando na Universidade de Washington que estuda o impacto, ao TechCrunch. ética das tecnologias emergentes. . “Você pode pegar um pequeno conjunto inicial de dados e simular e extrapolar novas informações a partir dele.”
A indústria de IA pegou o conceito e o aplicou.
Este mês, a Writer, uma empresa de IA generativa com foco empresarial, lançou um modelo, Palmyra X 004, treinado quase inteiramente em dados sintéticos. Custou apenas US$ 700 mil para desenvolver, diz Writer. comparado às estimativas de US$ 4,6 milhões para um modelo OpenAI de tamanho comparável.
Microsoft Fi Os modelos abertos foram treinados parcialmente com dados sintéticos. O mesmo aconteceu com o Google Jóia modelos. NVIDIA este verão introduziu uma família de modelos projetados para gerar dados de treinamento sintéticos, e a startup de IA Hugging Face lançou recentemente o que afirma ser o Maior conjunto de dados de treinamento de IA de texto sintético.
A geração de dados sintéticos tornou-se um negócio por si só, que poderia valor US$ 2,34 bilhões até 2030. Gartner prever que 60% dos dados utilizados para projetos de inteligência artificial e análise este ano serão gerados sinteticamente.
Luca Soldaini, cientista pesquisador sênior do Allen Institute for AI, observou que técnicas de dados sintéticos podem ser usadas para gerar dados de treinamento em um formato que não é facilmente obtido por meio de scraping (ou mesmo por meio de licenciamento de conteúdo). Por exemplo, ao treinar seu gerador de vídeo. Geração de filmesMeta usou o Llama 3 para criar legendas para as imagens nos dados de treinamento, que os humanos refinaram para adicionar mais detalhes, como descrições da iluminação.
Na mesma linha, a OpenAI diz que refinou GPT-4o usando dados sintéticos para construir o caderno de desenho Tela função para ChatGPT. E a Amazon tem ditado que gera dados sintéticos para complementar os dados do mundo real usados para treinar modelos de reconhecimento de voz para Alexa.
“Modelos de dados sintéticos podem ser usados para ampliar rapidamente a intuição humana sobre quais dados são necessários para atingir um comportamento de modelo específico”, disse Soldaini.
Riscos sintéticos
No entanto, os dados sintéticos não são uma panacéia. Ela sofre do mesmo problema de “entra lixo, sai lixo” que toda IA. Modelos criar dados sintéticos, e se os dados usados para treinar esses modelos apresentarem vieses e limitações, seus resultados serão igualmente contaminados. Por exemplo, grupos mal representados nos dados de base serão mal representados nos dados sintéticos.
“O problema é que não há muito que você possa fazer”, disse Keyes. “Digamos que você tenha apenas 30 pessoas negras em um conjunto de dados. Extrapolar pode ajudar, mas se essas 30 pessoas forem todas de classe média ou de pele clara, todos os dados “representativos” serão assim.”
Até este ponto, um 2023 estudar Pesquisadores da Rice University e de Stanford descobriram que a dependência excessiva de dados sintéticos durante o treinamento pode criar modelos cuja “qualidade ou diversidade diminui progressivamente”. O viés de amostragem (má representação do mundo real) faz com que a diversidade de um modelo piore após algumas gerações de treinamento, de acordo com os pesquisadores (embora eles também tenham descoberto que misturar alguns dados do mundo real ajuda a mitigar isso).
Keyes vê riscos adicionais em modelos complexos como o o1 da OpenAI, que ele acredita que poderiam produzir modelos mais difíceis de detectar. alucinações em seus dados sintéticos. Isto, por sua vez, poderia reduzir a precisão dos modelos treinados nos dados, especialmente se as fontes das alucinações não forem fáceis de identificar.
“Modelos complexos surpreendem; Os dados produzidos por modelos complexos contêm alucinações”, acrescentou Keyes. “E com um modelo como o1, os próprios desenvolvedores não podem necessariamente explicar por que os artefatos aparecem”.
Alucinações agravadas podem levar a padrões de linguagem sem sentido. PARA estudar publicado na revista Nature revela como modelos, treinados com dados cheios de erros, geram ainda mais dados cheios de erros e como esse ciclo de feedback degrada futuras gerações de modelos. Os pesquisadores descobriram que os modelos perdem a compreensão do conhecimento mais esotérico ao longo das gerações, tornando-se mais genéricos e muitas vezes produzindo respostas irrelevantes às perguntas que lhes são feitas.
um acompanhamento estudar mostra que outros tipos de modelos, como os imageadores, não estão imunes a esse tipo de colapso:
Soldaini concorda que não se pode confiar em dados sintéticos “brutos”, pelo menos se o objetivo for evitar o treinamento de chatbots esquecidos e geradores de imagens homogêneos. Para usá-lo “com segurança”, diz ele, você precisa revisá-lo, selecioná-lo e filtrá-lo cuidadosamente e, idealmente, combiná-lo com dados novos e reais, assim como faria com qualquer outro conjunto de dados.
Não fazer isso poderia eventualmente levar ao colapso do modeloonde um modelo se torna menos “criativo” (e mais tendencioso) nos seus resultados, acabando por comprometer seriamente a sua funcionalidade. Embora este processo possa ser identificado e interrompido antes de se tornar grave, é um risco.
“Os pesquisadores devem examinar os dados gerados, repetir o processo de geração e identificar salvaguardas para eliminar pontos de dados de baixa qualidade”, disse Soldaini. “Os pipelines de dados sintéticos não são uma máquina de autoaperfeiçoamento; “sua produção deve ser cuidadosamente inspecionada e melhorada antes de ser utilizada para treinamento.”
O CEO da OpenAI, Sam Altman, argumentou certa vez que a I.A. algum dia produzir dados sintéticos bons o suficiente para treinar com eficácia. Mas, supondo que isso seja viável, a tecnologia ainda não existe. Nenhum grande laboratório de IA lançou um modelo treinado baseado exclusivamente em dados sintéticos.
Pelo menos num futuro próximo, parece que precisaremos de seres humanos informados. em algum lugar para garantir que o treinamento de um modelo não dê errado.
TechCrunch tem um boletim informativo focado em IA! Cadastre-se aqui para recebê-lo em sua caixa de entrada todas as quartas-feiras.
Atualização: Esta história foi publicada originalmente em 23 de outubro e atualizada em 24 de dezembro com mais informações.