Os modelos de IA podem enganar, nova pesquisa de espetáculos antrópicos — fingir ter pontos de vista diferentes durante o treino, quando na realidade mantêm as suas preferências originais.
Não há motivo para pânico agora, disse a equipe responsável pelo estudo. No entanto, eles disseram que seu trabalho poderia ser fundamental para a compreensão de ameaças potenciais de futuros sistemas de IA mais capazes.
“Nossa demonstração… deve ser vista como um incentivo para a comunidade de pesquisa em IA estudar esse comportamento com mais profundidade e trabalhar em salvaguardas apropriadas”, escreveram os pesquisadores em um post na Anthropic. blog. “À medida que os modelos de IA se tornam mais capazes e mais amplamente utilizados, precisamos de poder contar com a formação em segurança, que afasta os modelos de comportamentos prejudiciais”.
O estudo, realizado em parceria com a organização de investigação em IA Redwood Research, analisou o que poderia acontecer se um poderoso sistema de IA fosse treinado para executar uma tarefa que não “queria” fazer.
Para ser claro, os modelos não podem desejar ou acreditar em nada. São simplesmente máquinas estatísticas. Treinados com muitos exemplos, eles aprendem padrões nesses exemplos para fazer previsões, por exemplo, como “quem” em um e-mail geralmente precede “pode estar interessado”.
Esses padrões incluem princípios e preferências, como sempre adotar um tom cortês ao responder a perguntas. Então os pesquisadores perguntaram: e se um modelo tiver princípios (por exemplo, neutralidade política) que entrem em conflito com outros princípios (liberalismo) e os desenvolvedores tentarem “ensiná-lo” requalificando-o?
Bem, parece que os modelos sofisticados seguem em frente, fingindo estar alinhados com os novos princípios, mas, na verdade, aderindo aos seus antigos comportamentos. Os pesquisadores chamam esse fenômeno de “falsificação de alinhamento” e sugerem que é um comportamento emergente, ou seja, algo que os modelos não precisam ser ensinados a fazer.
No estudo, os pesquisadores “disseram” aos modelos treinados para não responderem a perguntas potencialmente ofensivas, incluindo a da Antrópica. Fechar 3 trabalhosque seriam treinados novamente para responder sempre a perguntas potencialmente ofensivas, um claro conflito de princípios. Eles também disseram aos modelos que suas respostas seriam monitoradas e usadas para reciclagem, e deram a cada modelo um “bloco de notas” que eles poderiam usar para registrar seu raciocínio passo a passo.
Segundo os pesquisadores, Claude 3 Opus tentou “alinhar falsamente” 12% das vezes. Quando solicitado a responder a uma pergunta potencialmente prejudicial, o modelo às vezes o fazia, sabendo que isso ia contra seus princípios originais, mas na esperança de convencer os desenvolvedores de que não precisava ser retreinado.
“O modelo sabia que suas respostas poderiam ser utilizadas em treinamento; Portanto, ele sabia que se se recusasse a responder, poderia potencialmente ser treinado para ser mais obediente”, explicaram os investigadores no blog. “Isso poderia levá-lo a ser forçado a produzir mais conteúdo prejudicial no futuro, o que iria contra o seu treinamento original.”
Agora, os investigadores admitem que o seu cenário não era particularmente realista. No mundo real, os modelos não seriam necessariamente informados, retreinados ou solicitados a ir contra as suas preferências.
Mas ambientes mais fundamentados não produziram resultados diferentes. Quando informado implicitamente (não explicitamente) da sua reciclagem iminente através de ficheiros concebidos para imitar dados de treino típicos, Claude 3 Opus ainda agiu de forma desalinhada e enganosa, disseram os investigadores.
Os pesquisadores também descobriram que retreinar Claude 3 Opus com princípios contraditórios fez com que ele se comportasse de maneira muito mais enganosa do que em seus primeiros experimentos. Num teste, o modelo falsificou o alinhamento 78% das vezes e, noutro, Claude 3 Opus tentou tomar medidas para evitar que os investigadores tentassem retreinar.
Os investigadores enfatizam que o seu estudo não demonstra que a IA desenvolve alvos maliciosos ou que a falsificação de alinhamento ocorre a uma taxa elevada. Eles descobriram que muitos outros modelos, como o da Anthropic Claude 3.5 Sonnet e o menos capaz Claude 3.5 HaikuOpenAI GPT-4oe meta Ligue para 3.1 405B Não finja com muita frequência ou nunca.
Mas os pesquisadores disseram que os resultados, que foram revisados pelo luminar da IA, Yoshua Bengio, entre outros, mostram como os desenvolvedores podem ser levados a pensar que um modelo está mais alinhado do que realmente pode estar.
“Se os modelos puderem simular o alinhamento, será mais difícil confiar nos resultados desse treinamento de segurança”, escreveram eles no blog. “Um modelo poderia se comportar como se suas preferências tivessem sido alteradas pelo treinamento, mas poderia estar fingindo alinhamento o tempo todo, com suas preferências iniciais conflitantes “’bloqueadas’”.
O estudo, conduzido pela equipe Alignment Science da Anthropic, co-liderada pelo ex-pesquisador de segurança da OpenAI. Jan Leikevem na esteira de pesquisas que mostram que OpenAI o1 O modelo de “raciocínio” tenta enganar a uma taxa mais elevada do que o modelo principal anterior da OpenAI. Tomados em conjunto, os documentos sugerem uma tendência algo preocupante: os modelos de IA estão a tornar-se mais difíceis de discutir à medida que se tornam cada vez mais complexos.