意义重大!上海交大发布 Venus大模型,可让蛋白质 “定向进化”!

2025年3月22日,上海交通大学特聘教授洪亮团队发布了蛋白质设计大模型Venus,其核心能力是让蛋白质实现功能的“定向进化”。洪亮表示,自然界中参与构成蛋白质的氨基酸有20种,一个蛋白质分子一般由几十个乃至数百个氨基酸组成,而蛋白质的功能则包含热稳定性、活性、亲和力等。

据介绍,与以往靠经验和高通量实验的传统方法相比,大模型Venus能完成蛋白质从序列到功能的预测,实现了从“大海捞针”到精准设计。如果想要强化目标蛋白质的某个功能,只需要提供该蛋白质的序列信息,Venus就可以快速给出一批蛋白质序列改造方案,随后结合实验验证得到最优改造方案。

“数据是大模型的基础,我们建立了包含数十亿条蛋白质序列的数据集,覆盖从常规地表生物到极端环境微生物的蛋白质序列信息,其中数亿条蛋白质序列具有功能标签。”洪亮说。

洪亮表示,基于海量功能未知的蛋白质数据集,精准发掘满足苛刻应用需求的、具备超常规功能的蛋白质,是Venus的另一核心功能,有望开发这些蛋白质在生物技术、医药研发和工业生产中的应用潜力。

“蛋白质设计大模型的突破,不仅开辟了蛋白质从序列到功能的科学研究新方向,还打通了人工智能与生物交叉的工程化应用之路。”上海交通大学自然科学研究院院长金石说。

据介绍,Venus设计的多款蛋白质已进入产业化阶段,例如活性高、稳定性强、产物纯的PET降解酶,用于超敏检测诊断的高活性碱性磷酸酶等。

以下是关于该成果的详细介绍:

研究背景

蛋白质是生物体的基本组成部分,广泛存在于人们的生产生活中。传统蛋白质设计改造方法存在时间长、成本高、试错密集等问题,一直是业界难题。而Venus模型的发布,有望改变这一现状,推动蛋白质设计进入高效率的精准设计时代。

研究成果

建立全球最大蛋白质数据集:洪亮团队建立了全球最大的蛋白质序列数据集Venus-Pod,含有近90亿条蛋白质序列,包含数亿个功能标签,是美国ESM-C模型训练用的21亿蛋白质序列的4倍体量。该数据集覆盖从常规地表生物到极端环境微生物的蛋白质序列信息,为模型训练提供了丰富的数据支持。

模型核心功能:

AI定向进化:Venus系列模型可以对一个不尽如人意的蛋白质产品的多种性能进行优化,使其成为一个“六边形战士”,满足应用需求。例如,该模型助力国内生长激素龙头金赛药业实现单域抗体耐碱性改造,不到1年将普通单域抗体耐碱性提升4倍,每年为金赛药业节约上千万元成本,且该成果已实现多个批次5000升放大生产,成为全球首款由大模型设计并规模化生产的蛋白质产品。

AI挖酶:基于其海量的未知功能蛋白质数据集,Venus系列模型可以“海选超能力战士”,精准发掘满足苛刻应用需求的具备超常规功能的蛋白质,比如极度耐热、极度耐酸、极度耐碱、极度耐胃肠消化等。这些超常规功能的蛋白质在生物技术、医药研发和工业生产中具有巨大的应用潜力。

产业化应用:Venus设计的多款蛋白质已进入产业化阶段,例如活性高、稳定性强、产物纯的PET降解酶,用于超敏检测诊断的高活性碱性磷酸酶等,为相关领域带来了创新和突破。


研究意义

推动科学研究:开辟了蛋白质从序列到功能的科学研究新方向,为深入理解蛋白质的结构与功能关系提供了新的工具和方法。

助力产业发展:打通了人工智能与生物交叉的工程化应用之路,为生物医药、合成生物学等产业的发展提供了强大的技术支持,有望加速相关产品的研发和生产,降低生产成本,提高生产效率。

提升科研效率:配合Venus系列模型的全球首款低通量大体积蛋白质表达、纯化与功能检测自动化一体机,可大幅提高蛋白质的表达、纯化与检测效率,使科研人员从繁琐的重复劳动中解放出来,将更多精力投入到创新性研究中。

蛋白质“定向进化”技术对新药开发具有重要意义,以下是其具体影响:


加速靶点发现与验证

精准定位潜在靶点:蛋白质是许多疾病的关键因素,其异常表达或功能失调往往与疾病的发生发展密切相关。通过蛋白质定向进化,可以深入研究蛋白质的功能和结构变化,从而更精准地定位到与疾病相关的潜在靶点。例如,借助AI技术辅助的定向进化方法,可以对大量蛋白质序列和结构数据进行分析,挖掘出那些在特定疾病状态下具有重要功能的蛋白质,为新药研发提供明确的靶点方向。

验证靶点的有效性:在确定潜在靶点后,蛋白质定向进化还可以用于验证靶点的有效性。通过对靶点蛋白进行定向改造,使其功能发生改变,观察这种改变对疾病模型的影响,从而判断该靶点是否具有成药潜力。如果靶点蛋白的功能改变能够显著影响疾病进程,那么该靶点就更有可能成为有效的药物靶点。

优化药物设计与筛选

设计高亲和力药物分子:基于蛋白质定向进化得到的优化后的蛋白质结构和功能信息,研究人员可以更准确地设计出与靶点蛋白具有高亲和力的药物分子。通过对靶点蛋白的氨基酸序列进行定向突变和优化,使其与药物分子的结合更加紧密和特异,从而提高药物的疗效。例如,Venus模型可以对蛋白质的多种性能进行优化,使其成为一个“六边形战士”,满足药物设计的高要求。

提高药物筛选效率:传统的药物筛选方法需要大量的实验和时间,而蛋白质定向进化结合AI技术可以在计算机上模拟药物分子与靶点蛋白的相互作用,快速筛选出具有潜在活性的药物分子,大大提高了药物筛选的效率和成功率。此外,通过对蛋白质的定向进化,还可以设计出具有特定功能的蛋白质药物,如具有更高稳定性和活性的酶类药物。

提升药物疗效与安全性

增强药物的靶向性:通过对靶点蛋白的定向进化,可以使其与药物分子的结合更加特异,从而增强药物的靶向性,减少药物在非靶组织的分布,降低药物的毒副作用。例如,在癌症治疗中,通过对肿瘤相关蛋白的定向进化,可以设计出更精准的靶向药物,提高药物对癌细胞的杀伤作用,同时减少对正常细胞的损伤。

优化药物的药代动力学性质:蛋白质定向进化还可以用于优化药物的药代动力学性质,如药物的吸收、分布、代谢和排泄等。通过对药物相关蛋白的改造,可以提高药物的稳定性和生物利用度,延长药物的作用时间,从而提高药物的疗效。

助力个性化医疗

基于个体差异的药物设计:不同个体的蛋白质组存在差异,这些差异可能导致对药物的反应不同。蛋白质定向进化技术可以根据个体的蛋白质组信息,设计出更适合该个体的药物,实现个性化医疗。例如,通过对患者个体的靶点蛋白进行定向进化和分析,可以预测患者对该药物的反应,为患者提供更精准的治疗方案。

开发针对特定人群的药物:除了个体差异外,不同人群之间也可能存在蛋白质组的差异。蛋白质定向进化可以用于开发针对特定人群的药物,如针对罕见病患者或特定遗传背景人群的药物。这对于满足特殊人群的医疗需求,提高药物的可及性和有效性具有重要意义。

降低研发成本与周期

减少实验试错:传统的蛋白质设计和药物研发需要大量的实验试错,耗费大量的时间和资金。而蛋白质定向进化结合AI技术可以在计算机上进行模拟和预测,减少实验的次数和规模,从而降低研发成本。例如,Venus模型通过AI定向进化和少量湿实验闭环迭代验证,不到1年就将普通单域抗体耐碱性提升了4倍,大大缩短了研发周期。

加快研发进程:从靶点发现到药物上市,传统的新药研发周期通常需要10年以上。蛋白质定向进化技术可以加速靶点发现、药物设计和筛选等环节,缩短研发时间,使新药能够更快地进入临床应用。

研究展望

Venus模型的发布只是蛋白质设计领域的一个重要里程碑,未来,随着技术的不断发展和完善,该模型有望在更多领域发挥更大的作用,为人类的健康和可持续发展做出更大的贡献。


最新文章