首页 >  新闻中心

Share - WeChat

参考消息网 7月22日报道 据美国《财富》杂志网站7月20日报道,斯坦福大学的一项研究发现,广受关注的聊天机器人ChatGPT在6月份执行某些任务的表现比3月份的时候变得更糟了。

该研究对由开放人工智能研究中心(OpenAI)创造的这款聊天机器人数月时间内在执行4项“差异化”任务——解数学题、回答敏感问题、编写软件代码、视觉推理——的表现进行了比较。

研究人员发现这项技术执行某些任务的能力存在巨大波动——即“漂移”。该研究考察了OpenAI技术在这一时间段的两个版本:GPT-3.5和GPT-4。最值得注意的结果来自对GPT-4解答数学题能力的研究。在研究过程中,研究人员发现,在3月份时GPT-4能够在97.6%的答题时间里正确识别出数字17077为质数。但是仅仅3个月后,其答题的正确率却骤降至极低的2.4%。与此同时,GPT-3.5的表现轨迹则几乎相反,其在3月时回答同一问题的正确率仅为7.4%,而在6月时的回答大多是正确的,答题正确率达86.8%。

当研究人员要求这两个版本编写代码和接受视觉推理测试——即要求该技术预测某个图案中的下一个形象——时,出现了类似的差异化结果。

研究报告的作者之一、斯坦福大学计算机科学教授詹姆斯·邹(音)说,“如此巨大的差异程度”对于“尖端的ChatGPT”而言是意想不到的。

詹姆斯·邹说:“当我们在对大型语言模式进行调整,以改善其在某些任务中的表现时,这样做实际上可能会有许多意想不到的后果,它们或许会影响这个模型在处理其他任务时的表现。在人工智能模型如何回答问题方面,存在各式各样耐人寻味的相互依赖,它们可能在一定程度上导致我们所观察到的这些每况愈下的表现。”


 


2022年7月12日,世界互联网大会国际组织正式成立,从互联网领域的国际盛会发展为国际组织,总部设于中国北京。我们将致力于搭建全球互联网共商共建共享平台,推动国际社会顺应信息时代数字化、网络化、智能化趋势,共迎安全挑战,共谋发展福祉,携手构建网络空间命运共同体。