人工智能技术从头开始生成原始蛋白质

发布时间:2023-03-14 19:40:21 编辑: 来源:
导读 科学家们已经创建了一个能够从头开始生成人工酶的人工智能系统。在实验室测试中,其中一些酶与自然界中发现的酶一样有效,即使它们人工生成

科学家们已经创建了一个能够从头开始生成人工酶的人工智能系统。在实验室测试中,其中一些酶与自然界中发现的酶一样有效,即使它们人工生成的氨基酸序列与任何已知的天然蛋白质明显不同。

该实验表明,自然语言处理虽然被开发用于阅读和编写语言文本,但至少可以学习生物学的一些基本原理。Salesforce Research开发了名为ProGen的AI程序,该程序使用下一个令牌预测将氨基酸序列组装成人造蛋白质。

科学家们表示,这项新技术可能会比获得诺贝尔奖的蛋白质设计技术定向进化更强大,并将通过加速新蛋白质的开发来为拥有50年历史的蛋白质工程领域注入活力,这些蛋白质几乎可用于从治疗到降解塑料的任何东西。

“人工设计比受进化过程启发的设计表现要好得多,”加州大学旧金山分校药学院生物工程和治疗科学教授James Fraser博士说,他是这项工作的作者,该工作于26月2021日发表在Nature Biotechnology上。自 <> 年 <> 月以来,该论文的先前版本已在预印本服务器 BiorXiv 上提供,在同行评审期刊上发表之前获得了数十次引用。

“语言模型正在学习进化的各个方面,但它与正常的进化过程不同,”弗雷泽说。“我们现在有能力调整这些属性的生成以获得特定效果。例如,一种非常热稳定或喜欢酸性环境或不会与其他蛋白质相互作用的酶。

为了创建该模型,科学家们只需将280.56亿种不同蛋白质的氨基酸序列输入机器学习模型,让它消化几周的信息。然后,他们通过用来自五个溶菌酶家族的000,<>个序列以及有关这些蛋白质的一些上下文信息对其进行微调。

该模型迅速生成了一百万个序列,研究小组选择了100个序列来测试它们与天然蛋白质序列的相似程度以及AI蛋白质的潜在氨基酸“语法”和“语义”的自然程度。

在Tierra Biosciences体外筛选的第一批100种蛋白质中,该团队制作了五种人工蛋白质在细胞中进行测试,并将其活性与鸡蛋蛋白中发现的一种酶进行了比较,称为母蛋清溶菌酶(HEWL)。在人类的眼泪、唾液和牛奶中也发现了类似的溶菌酶,它们可以抵御细菌和真菌。

其中两种人工酶能够分解细菌的细胞壁,其活性与HEWL相当,但它们的序列彼此之间只有约18%的相同。这两个序列与任何已知蛋白质的相同程度约为90%和70%。

天然蛋白质中只有一个突变可以使其停止工作,但在另一轮筛选中,研究小组发现,即使只有31.4%的序列类似于任何已知的天然蛋白质,AI生成的酶也显示出活性。

人工智能甚至能够通过研究原始序列数据来学习酶应该如何形成。用X射线晶体学测量,人造蛋白质的原子结构看起来就像它们应该的那样,尽管序列是以前从未见过的。

Salesforce Research 于 2020 年开发了 ProGen,基于他们的研究人员最初开发的一种自然语言编程来生成英语文本。

他们从以前的工作中知道,人工智能系统可以自学语法和单词的含义,以及其他使写作良好的基本规则。

“当你用大量数据训练基于序列的模型时,它们在学习结构和规则方面非常强大,”Salesforce Research人工智能研究主任、该论文的资深作者Nikhil Naik博士说。“他们学习哪些单词可以同时出现,以及组合性。

对于蛋白质,设计选择几乎是无限的。溶菌酶与蛋白质一样小,含有多达约300个氨基酸。但是有 20 种可能的氨基酸,有大量的 (20300) 的可能组合。这比把所有生活在古往今来的人类乘以地球上的沙粒数,再乘以宇宙中的原子数还要大。

鉴于无限的可能性,该模型可以如此容易地产生工作酶是很了不起的。

“从头开始生成功能蛋白质的能力表明我们正在进入蛋白质设计的新时代,”Profluent Bio创始人,Salesforce Research前研究科学家,该论文的第一作者Ali Madani博士说。“这是蛋白质工程师可以使用的多功能新工具,我们期待看到治疗应用。

免责声明:本文由用户上传,如有侵权请联系删除!

热点推荐

精选文章