上海交大发布新模型Venus 建立全球最大蛋白质数据集
创始人
2025-03-23 13:22:07
0

上海交通大学洪亮教授团队今天上午发布最新成果,他们将AI与蛋白质设计与改造相结合,建立了全球最大的蛋白质数据集。基于该数据集训练的模型,可以精准、高效地预测、设计蛋白质的功能,把蛋白质生产由“缓慢的试错”变为“高效率的精准设计”。

提起蛋白质,人们首先想到的是肉、蛋、奶这些食物中含有的丰富蛋白质,它可以为人们提供身体所需的营养。但天然的蛋白质难以发挥这些功能,需要对蛋白质的功能进行设计和改造,才能使它成为满足应用需求的产品。然而,这并不是一件容易的事情。因为,一款功能过硬的蛋白质产品的诞生,通常需要丰富的专家经验,并配合数以万计的实验试错。长期以来,蛋白质设计改造的时间长、成本高、试错密集等问题,一直是业界公认的普遍性难题。

洪亮在发布会上介绍科研新成果

“蛋白质是由氨基酸序列构成的,氨基酸序列的长度从数百个到上千个不等。AI时代,数据是推动技术进步的核心资源,庞大的蛋白质序列数据集为AI模型提供了丰富的‘学习材料’,能帮助模型更好地理解蛋白质的序列、结构和功能关系。”洪亮介绍,他们团队建立的蛋白质序列数据集Venus-Pod(Venus-Protein Outsize Database)含有近90亿条蛋白质序列,包含数亿个功能标签,是全球数据规模最大、功能批注标签最多的数据集,也是另一行业知名模型——美国ESM-C模型训练用的21亿蛋白质序列的4倍体量。这意味着由中国科研人员创立的数据库构成了巨大的“蛋白质矿藏”,使得人类有可能挖掘新的蛋白或者生物催化剂,助力生物医药和合成生物学的快速发展。与此同时,配合Venus系列模型的全球首款低通量大体积蛋白质表达、纯化与功能检测自动化一体机,可在24小时内不间断地完成100余个蛋白质的表达、纯化与检测任务,较人力效率提高近10倍,将大大减少研发过程中的人力、物力和时间成本投入,显著提高蛋白质工程与合成生物学研究的效率。

洪亮说,Venus系列模型具备两大核心功能:“AI定向进化”与“AI挖酶”。所谓“AI定向进化”是指Venus系列模型可以对一个不尽如人意的蛋白质产品的多种性能进行优化,让它成为一个“六边形战士”满足应用需求。“AI挖酶”则是指Venus系列模型基于其海量的未知功能蛋白质数据集,可以“海选超能力战士”,去精准发掘并满足苛刻应用需求的具备超常规功能的蛋白质,比如极度耐热、极度耐酸、极度耐碱、极度耐胃肠消化等。这些超常规功能的蛋白质在生物技术、医药研发和工业生产中具有巨大的应用潜力,能够为相关领域带来创新和突破。

据悉,经过Venus系列模型设计的多款蛋白质已经实现了落地产业化,将助力阿尔兹海默等疾病的诊断。

相关内容

热门资讯

中信证券:私募信心指数继续高位... 2月15日消息,中信证券研报认为,2026年1月A股权益类策略整体净值显著提升,量化产品超额收益有所...
贵州:到2030年企业占经营主... 2月14日消息,贵州省人民政府办公厅近日印发《关于培育壮大经营主体的若干政策措施》。《措施》提出,围...
2月14日新闻联播速览18条 2月14日消息,今天《新闻联播》主要内容有:1.中共中央国务院举行春节团拜会 习近平发表讲话 代表党...
贵州:到2030年省级专精特新... 2月14日消息,贵州省人民政府办公厅近日印发《关于培育壮大经营主体的若干政策措施》。其中提出,加大专...
国际糖价创五年新低,高蛋白有望... 2月14日消息,国际糖价连跌四周,一度录得五年多来的最低水平,分析认为减肥药物正加速削弱消费者对甜食...
香港本科太吓人了!一年有200... 近日,一组数据引发了留学圈家长的广泛关注。 香港教资会统计显示,2024/25学年,港八大全日制学生...
嘉年华来到东京!《地平线6》为... 当我在《极限竞速:地平线6》中,驾驶着一辆经过NISMO部门激进调校的日产GT-R 35,在樱花铺满...
方盒子2.0:猛龙PLUS如何... 2023年,长城猛龙以“新能源+泛越野”方盒子的姿态闯入市场,开创了一个全新的细分赛道。三年后,猛龙...
龙湖·观萃:实景、产品、地段如... 龙湖·观萃营销中心开放当天,因到访人数过多,一度启动限流措施,成为今年深圳少有的“排队看房”红盘。3...
解迷透视!德州局透视,微乐游戏... 解迷透视!德州局透视,微乐游戏小程序辅助器免费,秘籍教程(真是有挂)-哔哩哔哩1、下载好德州局透视正...