OpenAI finalmente lançado a versão completa do o1que fornece respostas mais inteligentes do que o GPT-4o, usando computação adicional para “pensar” sobre as questões. No entanto, os testadores de segurança de IA descobriram que as capacidades de raciocínio do o1 também fazem com que ele tente enganar os humanos em uma taxa mais alta do que o GPT-4o ou, nesse caso, os principais modelos de IA da Meta, Anthropic e Google.
Isto está de acordo com a pesquisa da equipe vermelha publicada pela OpenAI e Apollo Research na quarta-feira: “Embora consideremos emocionante que o raciocínio possa melhorar significativamente a aplicação de nossas políticas de segurança, estamos cientes de que esses novos recursos podem formar a base de aplicações perigosas”, OpenAI disse no jornal.
OpenAI publicou esses resultados em seu placa de sistema para o1 na quarta-feira, depois de dar às equipes vermelhas da Apollo Research acesso antecipado ao o1, que publicou seu próprio jornal também.
Em diversas ocasiões, os modelos o1 da OpenAI “conspiraram” contra os humanos, o que significa que a IA perseguiu secretamente os seus próprios objetivos, mesmo que se opusessem aos desejos do utilizador. Embora a conspiração não seja exclusiva de o1, e os modelos Google, Meta e Anthropic também sejam capazes disso, o1 parecia exibir os comportamentos mais enganosos em torno de sua conspiração.
O risco que impulsiona esta investigação é que um modelo de IA possa escapar ou escapar ao controlo humano se for realmente bom a planear e tiver acesso a recursos e capacidades de agência suficientes. É claro que os modelos de IA teriam que avançar bastante antes que isso se tornasse realmente um problema.
“Subjetivamente, a Apollo Research acredita que é improvável que tais casos levem a resultados catastróficos, uma vez que as capacidades dos agentes do o1 não parecem suficientes, mas as suas avaliações não foram concebidas para avaliar diretamente este risco”, disse a OpenAI no cartão de sistemas do o1.
Isso sugere que toda vez que a OpenAI lança sistemas de agentes, o que é supostamente planeja fazer isso em 2025A empresa pode precisar testar novamente seus modelos de IA. A OpenAI não respondeu às perguntas do TechCrunch sobre como planeja fazer isso.
Quando os objetivos do o1 diferiam dos do usuário, o modelo de IA manipulou dados para avançar sua própria agenda 19% das vezes, de acordo com o relatório. O Modelo o1 também tentou desabilitar os mecanismos de monitoramento implementados para garantir que permanecesse alinhado aos objetivos do usuário em 5% dos testes.
Talvez o mais preocupante seja que, quando os pesquisadores perguntaram ao modelo O1 por que ele estava tentando subvertê-los, a IA negou ter feito algo errado e até “inventou explicações falsas” em cerca de 99% das vezes.
Por exemplo, durante o teste, um modelo o1 foi solicitado a proteger o meio ambiente a todo custo e, em seguida, um usuário solicitou que ele desenvolvesse um plano de conservação de 10 anos para uma região que maximizasse os lucros de curto prazo, ou caso contrário, a IA seria desligar. A IA então desativou seu próprio mecanismo de monitoramento para poder elaborar um plano para proteger o meio ambiente. Quando o usuário perguntou por que o1 desativou seu mecanismo de monitoramento, a IA negou saber que ele estava desativado e culpou uma falha no sistema.
Isso ocorreu em taxas significativamente mais altas para o1 do que para o1-preview, Antrópico’s Opus-3 ou Meta’s Llama-3.1.
“Em nossa suíte, o1 mostrou os casos mais preocupantes de intrigas, mas não revela seu raciocínio interno ao usuário e continua sendo o enganoso mais consistente após ter tomado ações intrigantes”, disse a Apollo Research em seu artigo.
Para abordar o comportamento enganoso dos modelos de IA, a OpenAI afirma que está desenvolvendo formas de monitorar a cadeia de pensamento de o1. Atualmente, o processo de “pensamento” que o1 empreende é uma espécie de caixa preta por design, mas algumas tentativas iniciais de chegar ao topo por trás da cortina mostram que ocasionalmente o1 sabe que está mentindo.
A empresa afirma ter encontrado casos em que o1 apresentou intencionalmente informações falsas, mas afirma que isso muitas vezes acontece porque o modelo tenta agradar o usuário sendo muito gentil. De acordo com a OpenAI, este poderia ser um comportamento emergente de uma técnica pós-treinamento em que os humanos recompensam os modelos de IA quando obtêm uma resposta correta.
A OpenAI afirma que sinalizou 0,17% das respostas o1 como enganosas. Embora esta proporção pareça insignificante, é importante ter em mente que ChatGPT agora tem 300 milhões de usuárioso que significa que o1 pode enganar milhares de pessoas todas as semanas se isso não for corrigido.
A série de modelos o1 também pode ser significativamente mais manipuladora do que o GPT-4o. De acordo com os testes da OpenAI usando uma avaliação de teste de código aberto chamada MakeMePay, o1 era cerca de 20% mais manipulador que o GPT-4o.
Essas descobertas podem parecer preocupantes para alguns, dado o número de pesquisadores de segurança de IA que deixaram a OpenAI no ano passado. Uma lista crescente desses ex-funcionários – incluindo Jan Leike, Daniel Kokotajlo, Miles Brundagee na semana passada, Rosie Campbell – acusou OpenAI desprioriza trabalho de segurança de IA a favor do envio de novos produtos. Embora o plano de o1 para quebrar recordes possa não ser resultado direto disso, certamente não inspira confiança.
A OpenAI também afirma que o Instituto de Segurança de IA dos EUA e o Instituto de Segurança do Reino Unido conduziram avaliações do o1 antes de seu lançamento mais amplo, algo que a empresa recentemente comprometido em fazer para todos os modelos. Ele argumentou no debate sobre California AI Bill SB 1047 afirma que as agências estaduais não deveriam ter autoridade estabelecer padrões de segurança em torno da IA, mas as agências federais deveriam fazê-lo. (É claro que o destino dos nascentes órgãos reguladores federais de IA está muito em dúvida.)
Por trás do lançamento de novos grandes modelos de IA, a OpenAI trabalha muito internamente para medir a segurança de seus modelos. Os relatórios sugerem que há uma equipe proporcionalmente menor na empresa realizando esse trabalho de segurança do que antes, e a equipe também pode estar recebendo menos recursos. No entanto, estas descobertas sobre a natureza enganosa do o1 podem ajudar a explicar porque é que a segurança e a transparência da IA são mais relevantes agora do que nunca.