Share - WeChat
参考消息网9月19日报道 据英国《经济学人》周刊网站9月17日报道,医学的精髓很大程度上在于通过详细问诊和身体检查,判断患者当前所患疾病。
而更具挑战性却同样重要的任务,则是预测患者未来可能罹患的疾病。一款新人工智能模型的研发团队声称,他们已实现这一目标。该研究成果发表在9月17日的英国《自然》杂志上。
这款名为Delphi-2M的模型尚未达到医院部署标准,但其研发者希望,未来它能帮助医生预测患者是否可能患上包括阿尔茨海默病、癌症和心脏病在内的1000多种疾病,这些疾病每年都会影响数百万人。除了帮助识别高风险患者,该模型还有望协助卫生部门为未来可能需要额外资金支持的疾病领域分配预算。
Delphi-2M由位于剑桥的欧洲分子生物学实验室与位于海德堡的德国癌症研究中心联合研发。
其设计灵感源自大语言模型(LLM),例如,为ChatGPT提供技术支持的GPT-5,这类模型能生成流畅的文本内容。
大语言模型经过训练,可以从互联网上抓取的海量文本中发现规律,从而预测句子中最可能出现的下一个词。Delphi-2M的研发团队认为,如果向人工智能模型输入大量人类健康数据,它也可能具备类似的预测能力。
从许多方面来看,现有大语言模型的架构已非常适合这项任务。
但关键的调整在于,需要教会模型理解患者人生中不同事件的间隔。
在书面文本当中,词语是前后衔接的,而患者病史中的诊断记录却不是这样。
例如,妊娠检测呈阳性后出现的高血压,需要根据两者的间隔时间作出不同的解读:如果间隔数周,可能影响妊娠;如果间隔数年,则需另作解读。
研发团队将大语言模型中的“词序编码模块”替换为“年龄编码模块”,以此实现这一调整。
随后,研发团队借助英国生物样本库中40万人的数据,对Delphi-2M进行训练。该样本库被认为拥有全球最完整的人类生物数据集。
研发团队向模型输入了ICD-10编码(这是医生用于记录官方认可诊断的国际医学简码)的时间与序列,这些编码涵盖了英国生物样本库数据集中出现的1256种不同疾病。
在训练完成后,研发团队先借助样本库中剩余10万人的数据对模型进行验证,之后又借助丹麦健康记录(以其长期跟踪、内容详尽著称)进一步测试。
此次测试使用了1978年以来190万丹麦人的数据,确保了样本在多样性与代表性方面均优于英国生物样本库。
为评估模型性能,研究人员测量了它的AUC(“曲线下面积”,指概率图中的特定区域):AUC值为1代表预测完全准确,0.5则相当于随机猜测。
在预测“距上一次诊断5年内可能出现的新疾病”时,Delphi-2M基于英国数据的平均AUC值为0.76,基于丹麦数据的AUC值略降至0.67。
对于“特定事件后常出现的事件”(如败血症后死亡),模型的预测准确率更高;而对于由随机外部因素引发的事件(如感染病毒),预测难度则更大。
不出所料,随着预测时间拉长,模型准确率也会略有下降:在预测10年后的疾病风险时,平均AUC值为0.7。
目前,该模型距实际应用仍有较长的路要走。
Delphi-2M首先需要经过更严格的试验阶段,让临床医生有机会验证它能否改善患者的治疗结果,而这一过程可能需要数年。
此外,研发团队已着手升级模型,使其能处理比“按时间排序的诊断列表”更复杂的数据。
由于英国生物样本库还包含医学影像和基因组序列,如果将这些数据纳入模型训练,有可能进一步提高预测准确率。(编译/刘白云)
2022年7月12日,世界互联网大会国际组织正式成立,从互联网领域的国际盛会发展为国际组织,总部设于中国北京。我们将致力于搭建全球互联网共商共建共享平台,推动国际社会顺应信息时代数字化、网络化、智能化趋势,共迎安全挑战,共谋发展福祉,携手构建网络空间命运共同体。