Share - WeChat
参考消息网6月12日报道 据美国趣味科学网站5月13日报道,麻省理工学院研究人员开发了一种新的方式,帮助人工智能(AI)系统在编码、战略规划和机器人科学三个领域执行复杂推理任务。
聊天生成预训练转换器(ChatGPT)和“克劳德3-奥普斯”(Claude 3 Opus)等大语言模型(LLM),根据人类输入“提示词”处理和生成文本。研究人员说,过去18个月,这些技术已大大改进,但仍因为无法像人类一样理解语境或在推理任务方面表现出色而受限。
但是,麻省理工学院的科学家们现在宣称,已通过创建能够产生更强大人工智能模型的自然语言“抽象”“宝库”,破解了这个难题。自然语言抽象将复杂的主题转变为高级特征并省略不重要的信息,这可能有助于聊天机器人像人一样推理、学习、感知和描绘知识。
科学家认为,目前大语言模型还难以像人那样提取信息。但他们把自然语言抽象分成三个资料库,希望它们能够增强情境意识,从而做出更多类似人类的回应。
科学家们于2023年10月、2023年12月13日和今年2月28日在阿奇夫论文预印本网站上发表了三篇论文,详细介绍了他们的研究结果。第一个资料库叫作“语言观察归纳资料库”,负责合成、压缩并记录计算机代码;第二个叫作“动作域获取”,覆盖人工智能的顺序决策;最后一个名为“语言引导的抽象”,帮助机器人更好地理解环境并规划动作。
这些论文探索了语言如何为人工智能系统提供重要的背景,以便它们能够处理较复杂的任务。5月11日,这些论文提交给了在奥地利维也纳举行的国际学习表征会议。威斯康星大学麦迪逊分校心理学助理教授罗伯特·霍金斯在声明中说:“资料库学习代表着人工智能领域一个最令人兴奋的前沿,为朝着发现和推理合成抽象提供了一条途径。”未参与这项研究的霍金斯还说,以往的类似研究计算成本太高,难以大规模应用。
科学家们说,三个资料库框架都使用神经符号方法——一种结合神经网络的人工智能结构。神经网络就是采用经典的类似程序的逻辑方法,模仿人类大脑结构的机器学习算法集合。
编码更加智能
大语言模型已成为人类软件工程师的强大工具,包括GitHub公司的Copilot模型等。但研究人员说,它们不能用于创建全面软件资料库。要做到这一点,它们必须能够对代码进行分类,并将其集成到更易于读取和重用的较小程序中,这正是“语言观察归纳资料库”的作用所在。
科学家把之前开发的能够找出抽象概念的算法——即“缝合”算法——与大语言模型合并,形成“语言观察归纳资料库”神经符号框架。根据这种方法,当大语言模型编写代码时,它就与“缝合”算法配对,确定语言抽象在资料库里的位置。
由于“语言观察归纳资料库”可以理解自然语言,它就可以像人类软件工程师那样利用常识完成任务。通过更好地理解提示词中使用的文字,大语言模型有朝一日可以绘制2D图像,回答与视觉效果相关的问题,操作Excel电子表格文档等。
制定战略规划
研究人员说,大语言模型目前还不能使用推理技能创建灵活计划,例如烹饪早餐涉及的步骤。但是,“动作域获取”框架可能是让它们在虚拟环境中执行此类任务时进行适应和规划的一种方式。
该框架通过使用大语言模型从与烹饪和游戏计划相关的自然语言库中查找抽象来建立资料库,其中最好的计划由人类操作员评分、过滤并添加到库中。通过将开放人工智能研究中心的GPT-4与该框架相结合,研究人员在执行厨房模拟和游戏任务时击败了作为AI决策水平基线的“代码即策略”。
通过找到隐藏的自然语言信息,该模型理解了诸如把冰镇葡萄酒放入厨房橱柜和铺床这样的任务,与没有“动作域获取”影响的情况下执行相同任务相比,准确率分别提高了59%和89%。研究人员希望在可预见的未来为“动作域获取”找到其他家务用途。
能够解决问题
“语言引导的抽象”框架也让机器人能够像人一样更好地理解环境——从周围环境去除不必要的细节,找到更好的抽象,以便能够更有效地执行任务。
“语言引导的抽象”在自然语言提示词(例如“把帽子拿给我”)中找到任务抽象,并根据训练视频执行动作。
研究人员使用波士顿动力公司的四足类犬机器人“斑点”机器狗,去完成取水果和回收饮料瓶的任务,证明了“语言引导的抽象”的效果。实验表明,机器人可以有效扫描世界,在混乱的环境中制定计划。
研究人员相信,“语言观察归纳资料库”“动作域获取”和“语言引导的抽象”这样的神经符号框架将赋予人工智能模型解决问题的技能,并且更好地驾驭环境,从而为“更像人一样的”人工智能模型打下基础。
2022年7月12日,世界互联网大会国际组织正式成立,从互联网领域的国际盛会发展为国际组织,总部设于中国北京。我们将致力于搭建全球互联网共商共建共享平台,推动国际社会顺应信息时代数字化、网络化、智能化趋势,共迎安全挑战,共谋发展福祉,携手构建网络空间命运共同体。