-
上海交大发布蛋白质设计模型“Venus”,用AI训练“六边形战士”
以去年诺贝尔化学奖授予AlphaFold开发者为标志,蛋白质设计,已成为当今AI for Science最热门的交叉研究领域。然而预测结构,只是一款功能过硬的蛋白质产品诞生的起点,其后通常还需要丰富的专家经验配合数以万计的实验试错,长期以来,蛋白质设计改造的时间长、成本高、试错密集问题,一直是业界难题。
3月22日,上海交通大学洪亮教授团队发布最新成果,使这些问题迎刃而解。团队将AI与蛋白质设计与改造相结合,建立了全球最大的蛋白质数据集,基于该数据集训练的模型,可以精准、高效地预测、设计蛋白质的功能,把蛋白质生产由“缓慢的试错”变为“高效率的精准设计”。该成果配合行业领先的自动化设备,已经进行产业化落地,把蛋白质设计从原先的“复杂科学”变为如今的“简单工程”。
建立全球最大的蛋白质序列数据集
蛋白质是由氨基酸序列构成的,氨基酸序列的长度从数百个到上千个不等。AI时代,数据是推动技术进步的核心资源,庞大的蛋白质序列数据集为AI模型提供了丰富的“学习材料”,能帮助模型更好地理解蛋白质的序列、结构和功能关系。洪亮团队建立的蛋白质序列数据集Venus-Pod(Venus-Protein Outsize Dataset)含有近90亿条蛋白质序列,包含数亿个功能标签,是全球数据规模最大、功能批注标签最多的数据集,也是另一行业知名模型——美国ESM-C模型训练用的21亿蛋白质序列的4倍体量。
该数据集包含36.2亿条陆地微生物蛋白质序列、26.4亿条海洋微生物蛋白质序列、24.3亿条抗体蛋白质序列、0.6亿条病毒蛋白质序列,覆盖从常规地表生物到极端环境微生物的蛋白质序列信息,尤其是配备的数亿功能标签(蛋白质工作的温度、酸碱度、压强等)。
这些数据意味着什么?洪亮表示,首先该数据集构成了巨大的“蛋白质矿藏”,使得人类有可能挖掘新的蛋白或者生物催化剂,助力我们生物医药和合成生物学的快速发展;其次,AI大模型有望通过海量数据的学习和掌握自然界蛋白质的进化模式,为AI设计优异的蛋白质产品提供了宝贵的学习资料。
瞄准蛋白质“功能预测”,用AI训练“六边形战士”
蛋白质是由20种氨基酸组成的一条高分子链,这个高分子链会扭曲并折叠成独特的三维结构,正是这种独特结构赋予了特定蛋白质的生物功能。2024年,诺贝尔化学奖颁发给谷歌DeepMind团队,该团队利用AI技术精准解析了蛋白质序列到三维结构的关系,解决了困扰生物学家长达50年的基本难题。然而,一个现实的问题是:如果我们稍微改动蛋白质的氨基酸序列,哪怕只是1%的微小改变,蛋白质的整体结构看似没有发生明显变化,但它的功能大概率会变差,甚至完全丧失。换言之,要设计出一款成功的蛋白质产品,不能只关注它的三维结构,而是要能成功预测和设计它的功能。因此,洪亮教授团队“另辟蹊径”,不再执着于蛋白质的结构,而是直接瞄准“功能预测”这一终极目标,将复杂的蛋白质设计变成以需求为导向,配合少量实验输出结果的简单过程。
“我们训练了Venus(启明星)系列模型,与DeepMind团队的AlphaFold预测蛋白质结构不同,这个模型学习自然界蛋白质序列的组织规则以及它与功能之间的关系,其预测蛋白质突变功能的精度位居行业榜单之首。”洪亮表示,Venus系列模型具备两大核心功能:“AI定向进化”与“AI挖酶”。所谓“AI定向进化”是指 Venus系列模型可以对一个不尽如人意的蛋白质产品的多种性能进行优化,让它成为一个“六边形战士”满足应用需求。而“AI挖酶”则是指 Venus 系列模型基于其海量的未知功能蛋白质数据集,可以“海选超能力战士”,去精准发掘满足苛刻应用需求的具备超常规功能的蛋白质,比如极度耐热、极度耐酸、极度耐碱、极度耐胃肠消化等。这些超常规功能的蛋白质在生物技术、医药研发和工业生产中具有巨大的应用潜力,能够为相关领域带来创新和突破。
与此同时,配合Venus系列模型的全球首款低通量大体积蛋白质表达、纯化与功能检测自动化一体机,可在24小时内不间断地完成100余个蛋白质的表达、纯化与检测任务,较人力效率提高近10倍,将大大减少研发过程中的人力、物力和时间成本投入,显著提高蛋白质工程与合成生物学研究的效率。其宗旨就是“设计AI化,实验自动化”,让科研人员从繁琐的设计和实验中解放出来,他们只需要提出问题,AI和自动化来解决问题,最终将复杂的蛋白质科学发现变成“傻瓜相机式”的简单过程。
已有多款产品落地,助力阿尔兹海默等疾病的诊断
从基础科研到产业应用,在任何科学领域都是一项从0到100的挑战,AI蛋白质设计也不例外:经AI设计出的蛋白质在实验室环境中表现出色,并不能保证它在中试阶段或大规模生产中同样能够维持优异的性能,这是因为产业化生产涉及更大规模的原料处理、更复杂的工艺控制以及更严格的质量标准,这些因素都可能对蛋白质的性能产生影响,而经过Venus系列模型设计的多款蛋白质已经实现了落地产业化。
以国内生长激素龙头金赛药业的单域抗体耐碱性改造为例。提升蛋白质的耐碱性历来是一项极具挑战性的工作,洪亮团队借助该模型结合少量湿实验闭环迭代验证,不到 1 年将普通单域抗体耐碱性提升 4 倍,每年为金赛药业节约上千万元成本。该成果已实现多个批次 5000 升放大生产,成为全球首款由大模型设计并规模化生产的蛋白质产品。
另一项Venus系列模型的创新应用则是对某体外诊断头部公司碱性磷酸酶(ALP)的改造项目。ALP 因高稳定性和灵敏度被广泛用作标记酶,其活性越高,检测灵敏度越高,从而能够检测到极低的生物标志物,但提升ALP的活性一直是一个挑战。Venus 系列模型成功优化 ALP,使其分子活性超国际头部公司产品 3 倍,为超敏检测诊断(如心肌梗塞、阿尔兹海默症)带来巨大价值。目前,改造后的 ALP 已进入 200L 规模放大生产阶段,标志着 Venus 系列模型成功实现产业转化。
- 责任编辑: 李沛 
-
全球首例!我国成功帮助渐冻症失语患者重建交流能力
2025-03-22 13:59 科技前沿 -
火星取样返回,美国能追上中国吗?
2025-03-22 09:12 -
我国第二代“飞天”舱外服超额完成任务
2025-03-21 23:09 航空航天 -
神十九乘组圆满完成第三次出舱,将于1个多月后返回地球
2025-03-21 23:07 航空航天 -
全球首例!我国脑机接口领域取得新突破
2025-03-21 22:55 -
我国新添一项世界之最
2025-03-21 14:13 科技前沿 -
月壤研究,重大突破!
2025-03-21 13:39 -
最小仅90纳米!这一领域我国再获突破
2025-03-21 09:57 科技前沿 -
巴拿马港口风波说明,我们需要一部自己的《IEEPA》
2025-03-20 13:44 心智观察所 -
我国实现星地量子密钥分发新突破
2025-03-20 06:42 科技前沿 -
官方公示:王兴兴,拟获表彰
2025-03-19 14:06 -
大逆转!国产MCU进入“反向传教”时代
2025-03-19 13:40 心智观察所 -
三大运营商的难言之隐
2025-03-18 15:15 心智观察所 -
高调展示的“美国雄心”,竟是中国制造
2025-03-18 09:56 心智观察所 -
中国科学家提出全新太空太阳能电站设计,有望根本解决全球能源问题
2025-03-17 10:20 心智观察所 -
这场标准之战,中国准备好了吗?
2025-03-17 08:15 心智观察所 -
5%恐惧症:美国对华半导体301调查真正的“故事背景”
2025-03-16 08:40 心智观察所 -
这一技术仅五个国家掌握!我国刷新纪录
2025-03-14 09:34 科技前沿 -
我国在三维世界造出二维金属材料
2025-03-13 10:16 科技前沿 -
相关推荐 -
关键时刻,外贸大省如何突围? 评论 26“特朗普会输,‘用谈判孤立中国’行不通” 评论 89“中国代表团访问巴西,探讨两洋铁路” 评论 192直播:如何应对特朗普贸易战——来自毛泽东的智慧 评论 30最新闻 Hot
-
“特朗普认为欧盟在占美国便宜,别指望梅洛尼能谈成”
-
“为防止被美国偷窥,连英国也支棱起来了”
-
特朗普:鲍威尔赶紧下台,总是迟、总是错
-
“中国有韧性美国则不然,特朗普已经搞砸了”
-
关键时刻,外贸大省如何突围?
-
“中国代表团访问巴西,探讨两洋铁路”
-
“世界贸易将围绕中美运转,美国如此笨拙…”
-
“中国将缺席,英国遭受打击”
-
“美国设下陷阱,韩国主动入局,要重现广场协议?”
-
美媒感慨:2小时→1分钟,中国又一壮举
-
“英伟达对中国客户隐瞒了…”
-
美国土安全部长放狠话:哈佛如果不从命,就别想再招外国学生
-
武契奇:天塌下来,我也不改主意
-
特朗普突然现身美日关税谈判,“背后是市场压力”
-
沙利文猛批特朗普:中国可不会像苏联那样崩溃
-
美国“吃货”欲哭无泪:特朗普逼着中餐馆换料,味儿不对了
-