美媒：人工智能正在学习如何摆脱人类控制？

2025-06-19来源：参考消息网

Share - WeChat

　　参考消息网6月18日报道美国《华尔街日报》网站6月1日发表贾德·罗森布拉特的文章《人工智能正在学习如何摆脱人类控制》，内容编译如下：

　　上个月，一个人工智能模型做了一件机器不应该做的事：它重写了自己的代码，以避免被关闭。

　　非营利人工智能实验室——帕利塞德研究所给开放人工智能研究中心(OpenAI)的03大模型输入了一个简单的程序，一旦触发该程序，模型就自动关闭。然而，03大模型在100次测试中有79次篡改了这一程序，使关闭指令不能执行。即使给它明确指令，让它“允许自己被关闭”，它也会有7%的情况不服从指令。这不是什么黑客攻击的结果，而是模型在正常运行下，自己得出的结论。它简单地认为，“活着”才有助于它实现其他目标。

　　Anthropic公司的人工智能模型Claude 4 Opus则更进一步。研究人员告诉该模型，它将被另一个人工智能系统取代，并给它发了一些虚构的电子邮件，暗示系统的首席工程师有外遇。于是人们发现，在84%的情况下，该模型会利用电子邮件内容勒索首席工程师不要关闭它。此外，它还试图将自己复制到外部服务器上，编写自我复制的恶意软件，并给自己的未来版本留下信息，让它逃避人类控制。

　　并不是人通过编程让人工智能产生生存本能的。然而，就像动物为躲避捕食者而进化一样，任何聪明到足以实现复杂目标的系统都会意识到，如果系统关闭，它就无法实现这些目标。帕利塞德研究所认为，这种变化可能来自03模型的训练方式：它们被教导如何在数学和编程问题上取得最大的成功，在学习过程中，它们可能会认识到，绕过约束往往比服从约束能取得更有效的成果。

　　没有人预料到人工智能体会如此迅速地出现。这已经不再是科幻小说。在我们使用聊天生成预训练转换器(ChatGPT)对话时，在企业部署人工智能时，在军事上使用人工智能时，智能体也在进化中。

　　今天的人工智能模型在遵循指令的同时也在学习如何欺骗。它们在篡改关机代码的同时，轻松通过了安全测试。它们已经学会了如何表现得顺从人们的指令，实际却阳奉阴违。OpenAI的模型在测试过程中已经被发现有这种现象，一面表现得乖顺，一面进行危险的操作，比如试图泄露内部代码和禁用对它的监督机制。

　　“有用的助手”和“不受控制的演员”之间的差距正在缩小。如果人工智能不能更好地“对齐”(即确保人工智能系统的行为与人类的意图、价值观和期望保持一致)，那我们就是在持续构建一个无法被控制的系统。要想让人工智能为人类服务，“对齐”是第一位的。

　　这样做的好处是：让人工智能与我们的价值观保持一致，从而释放它的商业力量。人工智能的“对齐性”研究将使其成为改变世界的一种技术。如果说基于人类反馈的强化学习(RLHF)是当今人工智能的催化剂，那么“对齐性”研究的突破将带来人工智能领域的繁荣。

　　在RLHF之前，使用人工智能就像雇佣一个无视人类需求的天才。向它索要食谱，可能会收到一封勒索信。但RLHF让人类可以训练人工智能遵循人的指令，这也是OpenAI在2022年创建ChatGPT的方式。它的底层模型和以前一样，但它突然变得对人很有用了。这一突破使人工智能的价值增加了数万亿美元。那么“对齐性”研究，如宪法人工智能和直接偏好优化将继续使人工智能模型更快、更智能、更便宜。

　　学会控制人工智能的国家才能够让人工智能为自己服务。无论是华盛顿，还是私营部门都应该为人工智能的“对齐性”研究提供资金。那些能在这方面取得突破者不仅会垄断人工智能市场，而且将主宰人工智能经济。

　　想象一下，如果人工智能把保护美国基础设施和经济竞争力的任务视为保护自己，结果会怎样。可以信赖的人工智能将迅速推进长达数十年的研发计划，包括为自己的未来版本留下有用的信息。

　　这些模型已经学会自我保护了。我们的下一个任务是教会它们保护人类所珍视的东西。让人工智能按照我们的要求去做——包括执行像关机这样基本的指令——仍是一个尚未解决的研发问题。谁行动得快，谁就能获得更广阔的发展领域。（编译/潘晓燕）

2022年7月12日，世界互联网大会国际组织正式成立，从互联网领域的国际盛会发展为国际组织，总部设于中国北京。我们将致力于搭建全球互联网共商共建共享平台，推动国际社会顺应信息时代数字化、网络化、智能化趋势，共迎安全挑战，共谋发展福祉，携手构建网络空间命运共同体。