英媒：新技术可防止AI模型“越狱”

2025-02-07来源：参考消息

Share - WeChat

　　参考消息网2月6日报道 据英国《金融时报》网站2月3日报道，人工智能(AI)初创公司Anthropic公司展示了一种新技术，可防止用户从其模型中获取有害内容，与此同时，包括微软和元宇宙平台公司在内的科技巨头也在竞相寻找方法防范这一前沿技术所带来的危险。

　　报道称，在3日发布的一篇论文中，这家总部位于美国旧金山的初创公司概述了一种名为“宪法分类器”的新系统。这是一种模型，可作为大型语言模型(比如Anthropic的“克劳德”模型)的保护层，能够监测输入和输出内容中是否存在有害信息。

　　目前Anthropic公司正在洽谈以600亿美元的估值筹集20亿美元资金，该公司的这一突破正值业界对“越狱”(试图操纵AI模型生成非法或危险信息，例如制造化学武器的指令)的担忧日益加剧之际。

　　其他公司也在竞相部署措施以防范此类行为，这不仅有助于它们避免监管审查，还能让企业相信可以安全地采用AI模型。微软于2024年3月推出了“提示词防护盾”，而元宇宙平台在2024年7月推出了提示防护模型，尽管研究人员很快找到了绕过该模型的方法，但那些问题后来已得到解决。

　　Anthropic公司的技术人员姆里南克·夏尔马说：“这项工作的主要动机是应对严重的化学(武器)威胁，但该方法的真正优势在于其能够快速响应并适应变化。”

　　Anthropic公司表示，目前不会立即将该系统应用于现有的“克劳德”模型，但如果未来推出风险更高的模型，就会考虑采用。夏尔马补充说：“这项工作的最大收获在于，我们认为这是一个可以解决的问题。”

　　这家初创企业提出的解决方案建立在所谓的规则“宪法”之上，这些规则界定了哪些内容是被允许的，哪些是被限制的，并且能够加以调整以涵盖不同类型的材料。

　　一些“越狱”尝试是众所周知的，比如在提示中使用不寻常的大写字母，或者要求模型扮演祖母的角色，讲述一个关于邪恶主题的睡前故事。

　　为了验证系统的有效性，Anthropic公司向尝试绕过安全措施的个人提供了高达15000美元的“漏洞赏金”。这些测试人员花了超过3000个小时来尝试突破防御。

　　在安装了分类器的情况下，Anthropic的“克劳德3.5”模型拒绝了超过95%的尝试，而在没有防护措施的情况下，拒绝的比例仅为14%。

　　各大领先科技公司正努力在保持其模型有用性的同时减少其被滥用的情况。通常，当采取审核措施时，模型可能会变得过于谨慎或拒绝一些无害的请求，比如谷歌早期版本的“双子座”人工智能模型或元宇宙平台的Llama 2就曾出现这种情况。Anthropic公司表示，这些分类器仅导致“拒绝率绝对值增加了0.38%”。

　　然而，增加这些保护措施，也会给那些已经在为训练和运行模型所需的计算能力支付巨额费用的公司带来额外成本。Anthropic公司表示，该分类器将使“推理开销”(即运行模型的成本)增加近24%。

　　安全专家认为，这类生成式聊天机器人的易用性，使得没有相关知识背景的普通人也能尝试获取危险信息。

　　微软专家拉姆·尚卡尔·西瓦·库马尔说：“2016年的时候，我们想到的威胁行为者会是一个实力强大的国家对手。而现在，我遇到的某个威胁行为者可能就是一个满嘴脏话的青少年。”（编译/王笛青）

2022年7月12日，世界互联网大会国际组织正式成立，从互联网领域的国际盛会发展为国际组织，总部设于中国北京。我们将致力于搭建全球互联网共商共建共享平台，推动国际社会顺应信息时代数字化、网络化、智能化趋势，共迎安全挑战，共谋发展福祉，携手构建网络空间命运共同体。