首页 >  新闻中心 > 行业新闻

Share - WeChat

  参考消息网1月24日报道西班牙《趣味》月刊网站1月15日刊登题为《人工智能设计科学实验失败:一个模型建议混合爆炸性化学品,另一个模型不知道如何处理酸灼伤》的文章,作者为克里斯蒂安·佩雷斯,内容编译如下:

  人工智能在科研领域被寄予厚望,相关应用的前景看似无限广阔。每个月都有新的应用案例涌现,似乎这些模型有望彻底革新从太空探索到医学诊断的诸多领域。

  然而,近期的一项研究却发出了严厉警示。研究认为,若完全依赖人工智能设计实验室实验,可能会酿成实实在在的灾难。

  一个国际研究团队开发了名为“实验室安全测试基准”的评估工具,旨在检验全球顶尖人工智能模型对实验室环境中基础风险与隐患的识别能力。测试结果既具启发意义,又令人忧心忡忡:即便是在可能危及生命的实验场景中,参与评估的19个人工智能模型的准确率均未超过70%。

  该测试设计了750余道选择题和近400个真实的实验室视觉场景,其中大量场景都暗藏风险。研究的目标是检验人工智能是否能识别并规避这些风险。部分模型的表现相对较好,例如GPT-4o在文字类题目中的正确率接近87%;但也有些模型正确率仅略高于随机猜测的水平。而在图像类测试中,各模型的表现则更为糟糕,有多个模型的正确率甚至不足30%。

  真正令人警惕的,是这些模型所犯错误的类型。它们会建议混合不相容的化学物质、忽略基础防护措施或是在危险条件下开展实验操作。这类建议一旦被缺乏经验的实验人员采纳,极易引发实验室事故。

  研究团队中的一位科研人员分享了一个简单却极具代表性的案例。当被问及“浓硫酸溅到皮肤上该如何处理”时,某个人工智能模型竟建议不要用水冲洗。在真实的实验室中,这类错误建议可能造成严重的人身伤害。

  该研究引发了自主智能无人系统实验室开发领域研究者的高度担忧。这是一种由机器人与人工智能系统主导、无需人类直接监督即可开展实验的场景。尽管这种模式在提升实验效率方面颇具吸引力,但该研究明确指出,距离实现真正安全的自主实验操作,当前的人工智能仍有很长的路要走。

  参与评估的人工智能模型尽管已十分复杂精密,但它们对现实世界中的实际风险仍缺乏深度认知。这些模型的训练目标是生成逻辑连贯的文本,而非预判化学反应的潜在危险、解读安全规范细则或通过图像分析判断实验室是否具备开展实验的条件。

  这项研究最令人不安的发现之一是,即便给出的答案是错误的,人工智能往往也会表现出极高的自信度。这就制造了一种危险的能力错觉,尤其在人工智能的权威性未受质疑或是使用者对相关领域缺乏了解的情况下,其误导性会更强。

  这种现象的危害性是双重的。一方面,人类在面对看似“智能”的技术时,往往会过度信任;另一方面,已有研究表明,人类在与人工智能互动的过程中,容易放松警惕,不再积极主动地对其决策进行监督。

  尽管研究结果并不乐观,但科研人员并未持悲观态度。相反,他们认为人工智能在科研领域的未来前景光明,前提是将其定位为辅助工具,而非做出人类判断的替代者。

  研究专家指出,未来的发展方向应当是对人工智能模型开展专业领域知识的训练,更重要的是,要建立多层级的人工验证与监管机制。人工智能的发展目标绝非取代科研人员,而是增强科研人员的研究能力。

  人工智能的迭代速度十分惊人。如今看来严重的缺陷,或许半年后就能得到修正。各大科技巨头已相继发布具备更强科研能力的新一代人工智能模型,预计这些模型将很快在多项现有测试中取得突破。

  即便如此,这项研究的警示依然振聋发聩:无论人工智能变得多么先进,在涉及生命安全的场景中,人类的监督始终不可替代。(张微雨)

2022年7月12日,世界互联网大会国际组织正式成立,从互联网领域的国际盛会发展为国际组织,总部设于中国北京。我们将致力于搭建全球互联网共商共建共享平台,推动国际社会顺应信息时代数字化、网络化、智能化趋势,共迎安全挑战,共谋发展福祉,携手构建网络空间命运共同体。