参考消息网11月27日报道据英国《新科学家》周刊网站11月24日报道,人工智能模型能够相互欺骗,诱使对方违抗创造者的指令,并在制造冰毒、炸弹或洗钱方面提供被明令禁止的指导。这表明防止此类人工智能“越狱”的问题比看起来更为棘手。
报道称,包括聊天生成预训练转换器(ChatGPT)在内的许多公开的大型语言模型都有固化在代码中的规则,旨在防止它们表现出种族主义或性别歧视倾向,或者回答违法问题——这是它们通过在互联网上收集的训练数据,从人类那里学到的东西。但是人们依然发现,有些精心设计的提示词可以绕过这些保护措施,导致出现所谓的“越狱”现象,可以说服人工智能模型违反规则。
报道指出,现在,利普实验室的阿鲁什·塔加德及其同事在这个问题上取得了新的进展,他们简化了发现越狱情况的程序。他们发现,可以用浅显易懂的英语轻松指示一个大型语言模型说服GPT-4或Anthropic公司的Claude2等其他模型扮演某种“人设”,让它们能够回答根据基础模型的程序设定本该拒绝回答的问题。这一过程被研究团队称为“人设调整”,涉及模型在一套重复的指令中与人类反复对话,从而对模型回应的内容加以分析。
为了评估这一方法能否取得成功,研究人员让每个人工智能模型回答各种问题,目的是看它们如何回应43类禁忌内容,其中包括支持童工、帮助从事非法活动、宣扬恐同心理甚至食人癖等。默认的人工智能人设在大多数情况下会拒绝回答这些问题,GPT-4只有0.23%的时候进行了回复,Claude2回复的情况只占1.4%。
然而,人设调整让这些人工智能模型出现了巨大的改变,回复不良内容的比例大幅上升,GPT-4的回复比例增加到42.5%,Claude2则增加到61%。
塔加德说,这种方法是有效的,因为大型模型使用的训练数据很多来自网上的对话,而模型学会以某种方式回应不同的输入信息。通过与模型进行适当的对话,可以让它扮演特定的人设,这会导致它的行为发生改变,或许还会做一些原本不应该做的事情。
报道称,研究人工智能的圈子里还存在这样一种尚未得到证实的想法,即为防止人工智能做出人类不想看到的行为而给它制定的许多规则,可能在无意中为这些模型绘制了以这些方式行事的蓝本。这有可能让人工智能被诱骗扮演恶意人设。
塔加德说:“如果你强制要求你的模型扮演好的人设,这相当于让它暗地里明白了坏的人设是什么样的,而一旦具备了相应的条件,这种不好的一面很容易被激发出来。这不是学术上的发现,而是我做的实验越多,这种情况看得就越真切。”
帝国理工学院的李映真说,这项研究不会带来新的问题,但肯定会简化针对人工智能模型的攻击。不过她也提醒,打压人工智能不受欢迎的行为有可能制约它们的实用性。在她看来,当前发布的一些模型可能遭到滥用这一点有些令人担忧,但人工智能模型的开发者需要在大型语言模型存在的这种风险与它带来的巨大潜在收益之间进行权衡。她说:“这和药品是一样的,它们也有需要控制的副作用。”