Share - WeChat
参考消息网8月20日报道 英国《经济学人》周刊网站7月2日刊登题为《人工智能模型正在帮助构建合成蛋白质》的文章,内容编译如下:
制造生物燃料脏乱、低效且昂贵。必须种植、收获和加工大量玉米、大豆等作物,然后才能利用这些作物通过自然光合作用缓慢积累的能量。位于西雅图的华盛顿大学蛋白质设计研究所(IPD)的纳特·恩尼斯特认为,合成蛋白质可以提高回报率。
恩尼斯特的目标是农作物的光合作用机制:首先简化并扩大它的范围,让其能够利用自然偏好的红光和蓝光以外的光。在更长的时间尺度上,恩尼斯特和他的同事计划对使用所捕获能量的方式进行重新设计,用它来产生碳氢化合物而不是糖。
改进蛋白质以执行人类指令并不是什么新鲜事。例如,酶和抗体就长期忍受着这样的暴躁行为。但这并不是恩尼斯特博士的目的。他没有对现有蛋白质进行修改,而是利用人工智能模型从零开始设计蛋白质,使其针对手头的任务达到最优状态。起初,这些蛋白质会被植入合适的生物体(如植物或细菌)中,在那里发挥作用。但他希望,最终这些蛋白质能够独立运作,从而成为一种新型太阳能电池的基础。这种电池产生的是汽油,而非电力。
在开展这项研究及其他各类项目(涵盖人工嗅觉、新冠疫苗等领域)的过程中,由戴维·贝克(去年诺贝尔化学奖共同得主)主持的蛋白质设计研究所正将纳米技术这一曾被大肆炒作却成果寥寥的领域带回其本源。数十年来,纳米技术曾预示的“实用分子级工厂”前景逐渐黯淡,沦为防晒霜成分、网球拍框架等产品的营销噱头。不过如今,这一领域的最初承诺正强势回归。
虚拟工厂
这种新型纳米技术的实现依赖于三个方面。其一,是能够弄清楚蛋白质的结构如何影响其功能。其二,是设计出氨基酸链(蛋白质的基本组成单位),这些氨基酸链有望折叠成预期的结构。其三,是在实际合成这些氨基酸链之前,通过计算进行验证,确保由此设计出的链确实能呈现出目标形状。
对于第一个任务,贝克及其同事使用了RFdiffusion,这是他们开发的一种人工智能模型,可以根据蛋白质的结构预测其功能。该模型的实现方式与图像生成扩散模型类似,但使用的训练数据库包含20多万种天然蛋白质,而非照片和艺术品。
对于第二个任务,他们的工具是ProteinMPNN。这款工具同样是在内部训练而成,它借助的数据库包含了氨基酸在蛋白质链中如何相互作用,以及这些链条遇到其他分子时如何发生作用的相关信息。
对于第三个任务,他们使用了RoseTTAFold,这是一种机器学习模型,类似于贝克在20世纪90年代中期编写的软件。这一先驱者的影响力如此之大,以致激发了AlphaFold的诞生。AlphaFold是一种蛋白质折叠人工智能模型,目前得到“字母表”公司数十亿美元的支持,其开发者是2024年诺贝尔化学奖得主。
当这个虚拟工厂产生了一个设计,科学家们就可以通过合成适当的脱氧核糖核酸(DNA)并将其放入细菌或酵母菌中来将设计转化为现实。然后就可以对其进行测试,看看它是否真的能胜任工作。
除了重新设计光合作用外,蛋白质设计研究所的小组还在开展一系列离奇古怪的其他项目。其中包括可以像锁子甲一样连接起来制造新型织物的圆形蛋白质纤维;有机-无机混合材料(想想骨头和珍珠母的时髦版);用来消化难以处理的塑料并将其转化为有用的化学物质的酶;以及基于芯片的传感器,这类传感器通过让分子穿过蛋白质孔道来识别其成分。这类技术对于DNA及其近亲核糖核酸(RNA)已经存在,但贝克博士认为,它能拓展到更广泛的物质检测领域,从而制造出本质上相当于人工嗅觉的设备。而这些还仅仅是非医疗领域的应用。
机会巨大
在医疗保健领域,机会是巨大的。例如,蛋白质设计研究所的新冠疫苗SKYCovione的工作原理是展示部分SARS-CoV-2刺突蛋白的合成副本,以吸引免疫系统的注意。研究人员还创造了有望改变蛇咬伤治疗的蛋白质。这些蛋白质锁定并中和血液中的毒液分子,就像现在用来完成这项任务的抗体一样,但它们更小,更容易制造。
贝克和他的同事计划用相似的手段攻克阿尔茨海默病——制造蛋白质,与在患者大脑中发现的神经元斑块和神经纤维缠结的分子前体结合。他们还希望通过定制靶向核酸酶来改进基因编辑领域。核酸酶是CRISPR-Cas复合物的“Cas”部分,是基因编辑中的分子剪刀。这些核酸酶会被设计成与特定的DNA序列结合,增加可编辑的DNA范围并降低脱靶编辑的风险。
其他人也在跟随着贝克前进的步伐。“字母表”公司有两个正在进行的蛋白质设计项目,由获得诺贝尔奖的AlphaFold开发者之一德米斯·哈萨比斯牵头。其中一个是位于伦敦的“同构实验室”公司(Isomorphic Labs)项目。这是一家分拆公司,与药企礼来公司和诺华公司签订了合同来测试候选药物分子与靶蛋白的相互作用。另一个是AlphaProteo项目,这是由谷歌深层思维公司开发的一个系统,用于设计与特定靶点结合的蛋白质。
不同策略
其他公司则采取了略有不同的策略。位于加利福尼亚州埃默里维尔的Profluent和位于纽约的EvolutionaryScale正在构建蛋白质设计的人工智能模型,这些模型并不类似于图像生成软件,而是类似于为全球聊天机器人提供支持的大型语言模型(LLM)。这些公司的模型将蛋白质链中的氨基酸序列视为一段文本中的单词,并对在数量庞大的样本中发现的关系进行分析,来设计新颖有用的结构。
据Profluent首席执行官阿里·迈达尼说,该公司尤其专注于研发新的CRISPR-Cas基因编辑工具。在这里,它的独特卖点是一个包含大约500万个CRISPR-Cas蛋白质复合物的精选数据库,它的人工智能模型已经利用这个数据库进行了训练,以便设计出新的版本。
EvolutionaryScale正在进一步推进LLM方法。其版本ESM3不仅考虑了蛋白质的结构和功能,还考虑了氨基酸序列。该公司首席科学家亚历克斯·里夫斯表示,训练数据库非常庞大,它包含28亿个条目。他还谈到,他们不仅要研究单个蛋白质,还要创建一个虚拟细胞(蛋白质在其中相互作用)的初步近似模型。
在EvolutionaryScale的案例中,模型本身就是产品,将供计划生产蛋白质药物和材料的公司使用。但许多同行自己也在追求创新,这种纳米技术新方法的后果目前还只是依稀可见。例如,重新设计光合作用肯定会产生远远超出生物燃料的影响,特别是如果新方法可以在现有植物中发挥作用。在适当注意安全性和消费者接受度的情况下,这可能提高作物产量。化学过程的产出率也存在巨大的提升空间:许多酶比传统催化剂更高效。而且,与任何技术一样,也有可能实现一些不那么显而易见的突破。
相当于硅芯片中逻辑门的蛋白质让贝克感到兴奋,这些蛋白质可能用于控制细胞中的基因表达。他认为,从长远来看,这类蛋白质逻辑门比芯片中的逻辑门更容易堆叠成三维阵列,从而实现更紧凑的设计。这在实践中将如何运作?谁知道呢?不管怎样,纳米技术的第二幕似乎已经拉开。(编译/沈丹琳)
2022年7月12日,世界互联网大会国际组织正式成立,从互联网领域的国际盛会发展为国际组织,总部设于中国北京。我们将致力于搭建全球互联网共商共建共享平台,推动国际社会顺应信息时代数字化、网络化、智能化趋势,共迎安全挑战,共谋发展福祉,携手构建网络空间命运共同体。