(资料图片仅供参考)
5月10日,2023数字经济大会在南京市成功举办。清华大学国强讲席教授、智能产业研究院(AIR)首席研究员聂再清发表了题为“多模态大模型的产业应用”的主旨演讲。
聂再清从ChatGPT的爆火谈起,探讨这种“智能涌现”是否可以运用于未来的新科学。“智能涌现”简单来说就是由量变到质变,得益于大数据的训练分析而产生飞跃式的功能及性能上的提升。
他表示,从生物制药领域来看,每个生物也是一种自然语言,或者说是分子语言。蛋白质序列像自然语言一样是有语法限制的。很多生物学家已经通过实验总结出了序列的知识,存储在知识库,或生物医药的文献里。他认为,在大模型时代,这些知识并不需要实验,而是直接通过大模型从模式中学习生物的结构和功能之间的规律。通过把人类总结的知识融入在分子结构的模型中去,这种机制能够大大提升在AI制药领域下游任务的性能。
聂再清指出,如果有一个大模型,把知识、分子、文本放在一起,不光进行如小分子药和靶点亲和力的生物医药的任务,也可以进行问答的任务,还可以跨模态的、基于分子来生成文本,这样的能力会在药物设计领域中有很大的帮助。所以生物世界用分子、文本和知识的统一来表示模型是非常好的方向。因为有大量单独分子的存在,所以需要独立于ChatGPT的模型。
聂再清等团队建立了一个名为BioMEDGPT的模型,学习了所有医药数据、分子、蛋白、细胞、知识图谱、文献的信息,此外,每一个模型会有一个单独的编码器,例如小分子有小分子的编码器,大分子有大分子的编码器,单细胞序列有单细胞的编码器等。此外,还有一个自然语言的编码器,这样不同的编码器会通过对比学习的方式把不同的向量空间拉近,之后用GPT的下游生成模型支持各个方面的下游任务。这个任务可以是生命科学蛋白质结构的预测,或者说分子对接、药物靶点亲和力的预测,也可以是跨模态的,优化或者生成分子,也可以进行生命科学领域的对话式问答。
聂再清表示,BioMEDGPT可以真正用在生物医药的产业里面,去跟实验生产方和制药方融合起来,这样,药化专家去制药就可以有药物研发的助手查文献,了解知识,同时进行下游任务的计算。这两个功能的打通会让大模型得到真正的反馈,也会建立行业真正的壁垒。
在大模型时代,BioMEDGPT不光能够赋能AI制药,也能够赋能人工制药,成为药化专家的助手,甚至成为制药领域的操作系统。