微软跟进谷歌反击,GPT-4引发新一轮AI风暴

2023-03-20
来源:中国电子报、电子信息产业网
分享

  3月15日凌晨,OpenAI发布了多模态大模型GPT-4,并迅速引爆全球舆论。GPT-4的前代产品,正是训练出上线两个月狂吸1亿粉的ChatGPT大模型GPT3.5。而GPT-4不仅较GPT3.5全方位升级,还开放了对图片的处理能力,瞬间引发了全球用户对于未来工作方式的畅想以及对于人与科技关系的新一轮思考。

  与全球用户同样坐不住的,是微软和谷歌,前者积极跟进,后者立刻反击。GPT-4引发的AI风暴,才刚刚开始。

将前代产品“拍在沙滩上”

  相比前代产品,GPT-4不仅支持多模态,还从多个维度提升了自然语言文本处理能力,并进一步提升了安全性。

  与前代产品着重处理文字输入不同,GPT-4能够处理图片信息以及带有文本和照片的文档、图表或屏幕截图等图文交错的信息,并以文字的方式输出。比如输入一张氢气球被细线系着的照片,并向GPT-4提问“如果线被切断会怎样”,GPT-4的回答是“线断了气球会飞走”,这表明它不仅能识别照片中的各项事物,还能够理解事物之间的关系。

WechatIMG2088.jpeg

  在自然语言文本理解和生成这项看家本领上,GPT-4相较GPT3.5有着多方面的提升。

  首先,GPT-4能够识别和处理更复杂的指令。比如OpenAI的工作人员在demo展示中设置了一个“文本摘要”任务,要求GPT将一段话总结为一句话,且句子中的每一个词都要以“G”开头。在测试中,GPT-3.5直接忽视了以固定字母开头的要求,仅仅将文章总结成一段话。GPT-4则生成了基本符合要求的回答,但是在句子中出现了“AI”一词。随后工作人员在对话中表示“AI不算G开头字母”,GPT-4马上将“AI”换成了“global”。

WechatIMG2090.jpeg

  其次,GPT-4比GPT3.5更能应对复杂微妙的场景。比如在一次模拟律师考试中,GPT-4 的分数在应试者中排名前 10%,而GPT-3.5 的得分排名在后10%。说明GPT-4在专业测试中的表现更接近人类水平。

  此外,GPT-4能够读取、分析或产生的文字篇幅高达25000词,远超篇幅上限为3000词的ChatGPT,可用于长篇内容创作、扩展对话以及文档搜索和分析等应用场景。

WechatIMG2089.jpeg

  在备受关注的安全方面,GPT-4响应被禁止内容请求的可能性降低了82%,产生事实响应的可能性提升了40%。

进一步融入微软搜索和云服务

  在GPT-4发布后,微软第一时间“认领”, 表示新版的搜索引擎必应已经在 GPT-4 上运行。另据OpenAI披露,GPT-4在微软Azure AI 超级计算机上进行训练,并将基于Azure 的AI基础架构向世界各地的用户提供 GPT-4能力。这个超级计算机是OpenAI与Azure为OpenAI的深度学习架构重新设计的。

  微软与OpenAI的合作始于2019年,今年1月,微软宣布与OpenAI的合作进入第三阶段,将围绕大规模超级计算机、新的AI体验、独家云供应商开展。通过超级计算机支持OpenAI的研究正是双方合作计划的一部分。

  微软对OpenAI的布局方向,也可以从双方的合作承诺中看出端倪。接下来,微软会在消费者和企业级产品中部署 OpenAI 模型,并引入基于 OpenAI 技术的新型数字体验。其中,Azure OpenAI 服务使开发人员能够直接接入OpenAI模型,并获得Azure在可信执行环境、企业级功能、AI 优化的基础设施和工具等方面的支持,以开发尖端的AI应用。作为 OpenAI 的独家云提供商,Azure 将为研究、产品和 API 服务中所有 OpenAI 工作负载提供支持。

不甘示弱的谷歌

  在GPT-4发布后,谷歌立刻发动反击,宣布开放大规模语言模型PaLM的API接口,并推出面向开发者的工具MakerSuite。PaLM API 是谷歌大型语言模型的入口,可用于各种应用程序的开发。开发者可以通过API访问面向内容生成和聊天进行优化的模型,以及面向摘要、分类等用例进行优化的通用模型。随之推出的工具MakerSuite能够让开发人员更加快捷地制作程序原型。

  也是在今天,谷歌发布博文,宣布将生成式AI能力——包括文字、图像、代码、音频、视频等内容的生成能力提供给开发者、行业和政府。

  这已经不是谷歌针对GPT的第一次反击。今年2月,谷歌发布了对标ChatGPT的聊天机器人Bard,其背后的大模型是谷歌2020年发布的大规模语言模型LaMDA。LaMDA与GPT模型一样建立在Transformer架构上,但接受的是对话训练,尤其是不以“是”或“否”回答的开放式对话。其目的在于通过对比不同问题、不同回答中的细微差别,使LaMDA能够针对各种话题生成明确具体的回答。

  目前,谷歌旗下有Bert、MUM、PaLM、Imagen 和MusicLM等多款大模型,GPT等多款大规模语言模型采用的Transformer架构也由谷歌在2017年发布。其中,Bert是谷歌第一代基于Transformer研发的大规模语言模型,由此开启了全球科技巨头围绕大规模语言模型的军备竞赛。而2022年推出的PaLM参数量高达5400亿。谷歌在大模型领域有着长期的技术积累。

  与微软类似,谷歌对于AICG和大规模语言模型的布局,围绕两条线进行,一是以搜索引擎为代表的消费端,二是以云服务为代表的企业端。从Bert开始,谷歌就在搜索引擎中引入了大模型,以提升用户检索信息并将信息转化为知识的效率。今日,谷歌还表示会在谷歌云上部署Vertex AI等开发平台和开发环境,让开发者能够利用AICG能力,开发符合企业级安全和隐私保护要求的产品。

仍有局限性

  虽然GPT-4的能力较前代产品有了显著的提升,但仍然存在一些局限性。

  首先是可靠性不足。比如,对于不了解的事物,GPT模型有可能生成虚构或错误的答案,产生人工智能式“幻觉”。

  由于大部分预训练数据截止到2021年9月,GPT-4对之后发生的事件缺乏了解,也没有从中吸取经验。它有时会犯一些简单的推理错误,或者在接受用户错误的陈述时表现得过于轻信。

  此外,GPT-4 也可能在预测中犯错,在可能出错时不注意仔细检查工作。GPT-4在输出中也存在偏差,OpenAI表示已经对偏差进行了纠正,但仍需要时间解决。

  但最令产业界和广大用户关注的,是GPT-4以及大模型的伦理安全问题。对此,OpenAI表示,GPT-4和后续模型有可能以有益和有害的方式对社会产生影响。该团队正在与外部研究人员合作,以改善其理解和评估GPT-4潜在影响的方式,建立对未来系统中可能出现的危险能力的评估机制。短期内,OpenAI将公布关于社会为应对人工智能影响可以采取的措施的建议,以及预测人工智能可能产生的经济影响。(张心怡)