海外独角兽
发布于

对谈 Chai-2 核心科学家乔卓然:抗体生成成功率提升百倍,分子生成平台是药物研发的 GPU|Best Minds


嘉宾:乔卓然

访谈:penny、cage

AlphaFold 3 是生命科学领域中“foundation model 时刻”的代表,但蛋白质结构预测只是科研闭环的起点,只有当模型的能力从“预测结构”迈向“直接生成分子”,新药开发效率才能实现真正的指数级提升。


今年 6 月 30 日,OpenAI 投资的 Chai Discovery 新发布的 Chai-2 是目前最接近这个目标的 AI-native 模型之一。在无任何训练样本的前提下,它能设计出具备 binding 活性的抗体,成功率高达 16%,不仅赶上了传统噬菌体筛选的效率,还具备更强的拓展性——几小时内就能针对任意靶点生成可实验验证的候选分子。


我们认为,Chai 不是在“辅助制药”,而是在构建“AI-native 制药”平台,把科学问题转化成工程问题。


为了更好地了解 AI 是如何推动药物发现的,我们访谈了 Chai Discovery 的创始科学家乔卓然,探讨 Chai-2 背后的设计理念与行业意义:


• Diffusion Model 给药物预测领域带来了建模范式的根本改变,AlphaFold 2 在模型架构上扫平了很多障碍;


• Chai-2 相较于 Chai-1 最大的进步是从预测过渡到了生成,能够在零样本条件下直接生成具有生物活性的抗体,抗体设计将从样本依赖转向结构引导的泛化范式;


• 结构预测是模型最基础的能力,很大程度上决定了模型的能力上限;


• 长远来看,分子生成平台对药物研发的作用就像 GPU 对 AI 的作用一样,AI-native 平台将成为制药行业的新生产力基础设施;


• 未来,合成数据会是连接实验数据和生物学理论的“第三模态”,AI for Science 公司在商业模式上会出现“平台即 IP”。

......


 本期内容音频版即将上线,欢迎关注「海外独角兽」小宇宙第一时间收听。


💡 目录 💡


   01 Diffusion Model 带来了建模范式的根本改变

   02 结构设计是结构预测的逆问题

   03 Chai-2 将药物开发周期从数月缩短到两周

   04 结构预测能力决定模型上限

   05 分子生成平台是药物研发的 GPU

   06 Zero-shot 更接近药物设计的本质

   07 未来的商业模式是平台即 IP





01.


Diffusion Model 带来了建模范式的根本改变


 海外独角兽先请卓然做个自我介绍,你是怎么进入 AI4S 这个研究领域的?


乔卓然:大家好我是乔卓然,拥有物理和计算化学的复合学术背景。计算化学通过对物理基本定律的理解,借助计算来研究现实世界中的化学构成。我在 Caltech 获得了化学博士学位。


博士期间我的主要研究兴趣集中在如何运用数据驱动的方法改进分子模拟,以显著提升计算效率。传统的分子模拟研究依托于两个关键支柱:


1. 量子化学:通过电子结构计算,我们能够获得一个分子的能量,也就是获得了分子构型与物理能量之间的映射关系。


2.在已知能量的 landscape 进行好的采样:研究化学反应,以及不同分子的物质形态(气态、液态等)之间的相变都依赖于这个采样方法和一些统计力学。


博士期间我首先做的是用数据驱动的方法加速量子化学,当时将求解一个分子能量的过程提高了 1000 倍。


后来,我的研究兴趣逐渐聚焦到生物分子的结构预测,一方面,生物分子的结构与人类健康密切相关,另一方面,sampling 的问题是我从本科阶段起就持续关注的问题。


例如,当我们研究一个蛋白质从非折叠态过渡到折叠态的过程时,该过程可能发生在毫秒级,甚至秒级。通过传统分子动力学(molecular dynamics, MD)研究蛋白质目前最领先的研究团队之一是 D. E. Shaw Research,但即便如此,计算成本仍然是天文数字。


为了解决这个问题,D. E. Shaw 团队用 ASIC (专用集成电路)打造了一些专有的超级计算机,他们能够实现的模拟尺度是每天生成一微秒的模拟轨迹。这可能已经达到了人类通过物理计算手段进行采样的极限。


但是人类基因组中含有超过 2 万个以上的蛋白质,如果我们希望研究这些蛋白的成药机制及作用机制,这已经远远超出了分子动力学在传统立场下所能求解的能力上限。


 海外独角兽:当想要研究的分子数量从几十个、几百个,到上万个时,你逐渐发现分子动力学或物理模拟的方法开始变得越来越不适用了?

乔卓然:是的,但也不能说是完全失效,这些方法在早期确实取得了很多成功。但从实际的角度来看,如果想要把这些技术应用到药物研发,比如研究蛋白质的功能、研究蛋白与药物分子之间的相互作用机制等,这些方法仍然过于昂贵。


大概在 2021 年,有两件事对我产生了深刻影响。


第一件事是 score-based generative modeling 的发展。当时 Yang Song 团队发现可以通过一个随机微分方程(stochastic differential equation),从一个随机的初始状态出发去采样新数据,把一个简单的数据分布逐步转化成一个复杂的数据分布。


Score-based generative modeling 是一种生成模型方法,核心思想是学习数据分布的“score function”,即对数密度函数的梯度。与传统的生成对抗网络或变分自编码器不同,这种方法不直接生成样本,而是通过一个随机微分方程从噪声出发,逐步将样本转化为数据分布中的真实样本。


Song Yang 团队成果


他们当时主要研究的问题是图像生成,这一过程与统计力学和随机热力学中所采用的模拟方法是严格对应的,比如在一个随机微分方程中,它包含一个漂移项和一个布朗运动的噪声项,和分子模拟中的势能函数以及热浴是直接对应的。这种新的生成式建模方式是天然地适合处理复杂、高维的分子运动系统。


我们当时就意识到它可以直接从噪声中生成新的样本,天然地避免了需要长轨迹去模拟生成新样本的过程,从而可以做到从一个随机的初始猜测直接跳跃到一个结果。


以导航类比,传统的导航方式是通过随机游走,在街区附近不断地去探索,再到最终感兴趣的目的地,而现在是能够直接跳跃到目的地,这很大程度地改变了我们研究蛋白质和生物大分子的基本逻辑。


 海外独角兽:大部分人没有意识到图像领域中的 diffusion 和分子、蛋白质领域中的药物发现之间还存在着联系。在药物发现里面,最终生成的分子结构对精确度要求应该更高,什么机制可以确保生成的药确实具有高精确性呢?


乔卓然:药物研发还涉及很多后续验证环节,比如在人体或动物模型中是否具有疗效等。但我们当时所具体考虑的科学问题是生物分子的结构预测。


结构预测已经有很多的 ground truth 数据,就是 PDB(蛋白质结构数据库),这个数据库基于过去五十年结构生物学的实验积累,包括 X 射线晶体学、冷冻电镜等技术。它收录了很多生物的蛋白质单体以及蛋白质与其他分子(如核酸、小分子)结合形成的复合物结构,因此每一个结构都包括所有原子的三维坐标信息。这些 ground truth 可以帮我们把科学问题转化成机器学习问题,设计一个 loss function 去确认模型的预测是否完全正确。


PDB 蛋白质结构数据库


但是当时最激动人心的还是 Diffusion Model 带来了建模范式的根本改变。

 

我最开始接触理论化学科研时的主要兴趣是,通过统计方法去加速传统分子动力学采样,比如增强抽样是基于采样区域的重要性对能量面进行重加权,在充分探索后,再通过 reweighting 去建模原始的势能和自由能面,但是有一个最大壁垒就是,它仍然预先假设人类对于一个分子体系所有能稳定存在的结构有基本了解。


这其实是传统计算的一个困境,也就是说我们需要预先知道整个分子体系全局所有能采样的状态,但实际上我们又需要从一个状态出发,不带偏见地充分去探索其他的状态。现在有了生成模型,我们希望能够一次性地生成具有代表性的结构样本。


第二件事就是 AlphaFold 2 的出现,在模型架构上扫平了很多障碍


我们意识到可以通过一个非常高效的神经网络,以一个非常强大的 capacity 去表示这些分子的三维结构,然后把它从一维的序列表示映射到三维坐标上。


AlphaFold 2 根据氨基酸序列预测蛋白质结构


虽然 AlphaFold 2 在很大程度上解决了“蛋白质如何折叠”的问题,但计算化学研究者最更关注的还是蛋白质如何运动、如何与其他分子结合,以及这种结合如何进一步调控蛋白质的功能。


我们需要生成式模型,而生成式模型也在这个时候开始逐步成熟起来。虽然我可能比 AlphaFold 团队更晚进入到这个领域,但也许在那个时间点,我比所有人都更加相信,diffusion structure prediction 和这些生成式模型探索分子生成的方式,会很大程度上改变未来进行计算化学研究乃至设计新药的逻辑。


 海外独角兽:Diffusion 让你们看到了生成式建模这种全新范式的出现,而 AlphaFold2 则带来了结构预测领域的巨大变革。恰好这两项几乎同时发生,所以你很清晰地感受到一个新的机会正在出现。


乔卓然:2021 年,我逐渐把自己的研究方向转到大分子的结构预测上,当时我和 Nvidia 的几个合作者一起做了可能是最早的 co-folding structure prediction(共折叠结构预测),叫 NeuralPLexer。


我们当时的想法就是:


1. 做全原子的结构预测;


2. 做通用模态,不管是蛋白还是小分子,都可以放在一个框架里面去建模;


3. 能够对整个构象分布进行采样,而不仅仅是单个结构。当小分子与蛋白结合时,会引发蛋白自身的构象变化,这些变化又可能进一步影响蛋白与其他信号分子的结合及其功能,我们希望通过一个统一的结构预测框架来生成这些假设。


 海外独角兽:全模态能力的出现主要是因为 AlphaFold 的出现吗?还是说源于其他技术的出现?


乔卓然:主要还是因为通用的生成式建模手段,让我们可以直接在每个原子的层面上建模坐标。


比如 AlphaFold 2 仍然有一些对于分子内部组成规则的基本假设。以蛋白质为例,它被分成主链和侧链,常见的天然氨基酸其实只有 20 种,这 20 种可以基于一些简单规则来无损压缩成 tokens,比如对于每个主链骨架中的两个碳原子和一个氮原子,可以简化成一个三角形的框架,也可以把侧链抽象成两个二面角。


但是这样的一种抽象手段并不适用于其他大部分的 building block,比如核酸有另外一套组成规则,而小分子是可以基于任何的一个化学分子图去表示的。这就使得 AlphaFold 2 这种利用基于规则的抽象去训练一个 deterministic regression model 的思路并不能直接扩展到更通用的分子模态上。


如果我们基于扩散模型和 geometric deep learning 做建模,可以实现从头建模每一个原子在三维空间坐标上的演化,然后通过一个基于随机微分方程不断地迭代更新坐标,这是更直接通用的一套模拟手段。


 海外独角兽:你从看到这个机会开始,就调整了自己的研究方向,后来你是怎么加入 Chai 的?


乔卓然:我的第一个研究就是 AI 量子化学,很大程度上激发了我的 PhD 导师 Tom Miller 的创业热情,他意识到这件事情不仅能够在学术上提高计算的效率,也可以帮助工业界的不同团队去研究化学反应,研究药物靶标的作用机制。


Entos AI(现称 Iambic Therapeutics)是一家 AI 驱动小分子药物发现初创公司,依托自身专有的 OrbNet 平台,将量子力学融入机器学习,加速预筛选化合物、提高准确性。Tom Miller 是创始人兼 CEO。

Tom Miller


我当时与 Iambic 的许多研究员合作,把我们开发的 AI 量子化学工具 OrbNet 从一个拥有一百万参数的模型,提高到一个拥有一亿参数的模型,从而提升效果,帮助几个主要化工企业改良了一些催化剂。


后来,当我开始进入结构预测领域时,我意识到学术界面临很多算力和工程能力上的壁垒,而结构预测用于复合物建模的基础框架一旦建立,急需解决的关键问题就不仅仅是算法层面的创新,而是模型和数据的 scaling。


比如怎么能够把 PDB 中每一个原子的信息都利用起来,如何用更大的模型、更好的训练和数据来进一步提高预测精度,从而在更多真实体系中达到接近实验的精度水平。


相比在学术界继续做算法层面的早期探索,我更希望看到模型能力在真实场景中增长,所以我加入了 Iambic,我搭建的算法团队在不断地做模型 scaling 和工程能力建设。


之后我们发布了 NeuralPLexer2 和 NeuralPLexer3。在 NeuralPLexer2 中,我们第一次看到随着算力地指数级提升,能够精确求解的体系数目实现了线性提升,NeuralPLexer3 在此基础上重写了架构并且基于 flow matching 做了所有分子模态上的的 scaling,目前仍然是 state-of-the-art 的预测成功率,同时生成的小分子立体化学的错误率也显著领先于其他方法。


NeuralPLexer2 和 NeuralPLexer3 是由 Caltech 的 Thomas F. Miller III 等人在内的研究团队开发的一系列用于大规模分子结构预测和生成的深度学习模型,主要面向量子化学和计算分子科学等领域。这些模型在保留物理精度的同时,大幅提升了计算效率。


NeuralPLexer3


AlphaFold3 的发布进一步验证了我们思路的有效性。不只是 Iambic 团队在进行 co-folding 方向的研究,Google DeepMind 等团队也认识到 co-folding 作为一个新的范式,会成为更通用且能产生新的 structural hypothesis 基本的逻辑。


AlphaFold 从 2 到 3 就是从确定性的 regression model 转向了 diffusion-based,包括 embedding 模块大幅的简化,以及不同分子类型 embedding 的通用化。


2024 年年底,我结识了 Chai 团队。当时团队中很多成员,包括我自己,都相信,无论是结构预测、亲和力预测,还是分子性质预测,AI 正在改变传统药物设计闭环中的很多环节。在很多分子设计的过程中,有了 AI 模型的引导之后,它确实可以大大地加速。


但这些模型新涌现出来的能力是不是上限不止于此,是不是能够带来全新的分子设计机会,而不只是在我们人类专家设计的一个环节里起到辅助作用?


于是我和很多 Chai 成员们产生了一个共同的想法:这些模型能不能本身成为一个有效的平台,成为一个产生有临床价值分子的一种新的工具和范式?


因此,我决定加入 Chai,开始去思考能不能 AI native 地去做 Discovery,我愿意把 Chai 定义成一个 AI native 的生物技术公司,而不只是说一家整合了 AI 功能的生物技术,或者说一家纯 AI 公司。


 海外独角兽:你加入 Chai 多久了?在这段时间里,在这个团队工作你有什么感受?

乔卓然:加入到现在有 7 个月了。

Chai 是一个非常小而精简的团队,现在也只有 10 个成员,包括我在内有一半的成员之前都在 biotech 公司带领过 AI 团队,搭建过 foundation model。初始团队成员一共贡献了领域中 5 个较为重要的基础模型,参与了大约 10 条已经进入或即将进入临床阶段的药物管线研发。


如果要用一句话简单概括 Chai 的团队,我认为是具备第一性原理,即会从模型所具备的新能力出发,重新思考做药以及搭建研发平台的方式。


在此基础上,团队还具备非常强的产品意识,这是很难能可贵的,团队会关注模型能力如何向生物医药研发的后续环节渗透,不仅仅是提升计算指标,而是去真正解决这个行业中的需求。


这些真正的需求并不局限于医药研发管线中已明确的各个优化环节,我们更关注本质的问题,比如对一些更难成药的生物学机制去针对性地设计分子,如何快速地将一款新药真正交付到患者手中或医疗系统中。


最后,我们能够做到快速地执行并且迭代,并在这个过程中不断调整想法。这也保证我们在做出新的模型能力后可以扩大它的影响力,这也会让整个行业去评估新技术的可能性。




02.


结构设计

是结构预测的逆问题


 海外独角兽:Chai discovery 最近发了 Chai-2,是系列模型的第二代,做这一系列模型的出发点和目标是什么?和 AlphaFold 系列模型会有什么不同呢?

Chai-2 发布


乔卓然:Chai Discovery 的模型是想要预测并且重编程所有生物学相关分子之间的相互作用。


预测就是从分子的序列和化学式出发,生成三维结构和统计分布。重编程就是在一个活细胞之内,不同生物分子的蛋白质和 RNA 之间、蛋白和小分子之间的相互作用构造成了一个大尺度的互作网络,这个互作网络维护着细胞稳态。


绝大多数新药研发都可以归结于如何把一个病理性的互作网络通过化学的手段把它调控成一个正常的细胞状态,如果我们想通过 AI foundation model 去做这件事情,就需要我们对互作网络有非常精细的理解,而且我们还需要在高质量互作网络预测的基础上,具备生成新分子的能力。


AlphaFold 的成功之所以能产生巨大影响,获得诺贝尔奖,在很大程度上是因为之前的传统模拟手段很难以 brute-force(蛮力穷举)的方式解决这一问题,即难以遍历所有蛋白质可能的构象来获得它们的三维结构。


但是结构预测模型,尤其是 AlphaFold,解决的问题就是通过分子进化的信息,从另外一个角度去提取出蛋白结构中的有效约束,然后把这些约束转化成一个三维结构。 


近年来,随着 AI biology 基本模型能力在提升,AI 能够解决问题的范围不断扩大。但这里有一条暗线是我们对爆炸性增长的基因测序数据、蛋白质序列数据的理解需要不断加深,对广义的分子进化数据也要有更加充分的利用。


AlphaFold 的 foundation model 就是利用了共进化原理,以蛋白质为例,如果某一蛋白质的两个残基在大量相关的序列中总是同时发生变化,这大概率意味着这两个残基在三维结构上是足够接近的。


AlphaFold 所实现的就是在蛋白质单体层面上,能够利用一个合适的注意力神经网络,从海量的蛋白质序列数据库中抽取出潜在的结构约束,并将这些约束转化为人类可以观察的三维结构模型。但是在此之上还有更一般性的分子进化机制,比如新抗体的产生,它涉及到的是可变区域的重组,通过免疫机制持续筛选积累一些 affinity 更高的一些抗体。


我们如何才能更好地利用这些数据,以及我们如何通过更一般的进化原则,来不仅仅解决蛋白单体的结构问题,而可以进一步去预测多个分子之间的结合模式,以及它们是如何在原子层面上互相交流的。这其实是为实现相互作用的重编程提供了基石。


我们目前已经接近实现的一个重要里程碑就是 Zero-shot Molecular Design,即零样本的分子设计。


Zero-shot 意味着我们可以对于从未有任何已知实验数据的靶点,可以直接通过计算生成有结合活性的新蛋白。这些设计可以精准、选择性地作用于我们感兴趣的表位上。


我们更长期的目标是基于 zero-shot design 重新定义当前药物研发,尤其是抗体类药物的设计方式,甚至可以把模型能力扩展到蛋白质组层面去重编程整个细胞状态。


 海外独角兽:蛋白质对于分子结构的预测和蛋白质抗体这类分子的设计之间是什么关系?做好了结构预测就能做好设计吗?


乔卓然:我们认为可能要先解决结构预测,然后再慢慢过渡到设计。结构预测就是预测已知序列的蛋白在三维空间中的 fold。


从头设计蛋白质在某种意义上是这个问题的逆问题:如果我们已知人类在一个蛋白上关心的功能,如何去预测生成的新结构,包括基于这个功能和结构去预测去生成新的蛋白序列。比如酶的设计,以及治疗性蛋白的设计,如抗体、小型蛋白等。


还有一个应用场景是药物递送,药物在人体内输运的过程中有时需要一个合适的载体,而这些载体的设计,同样是从功能出发,这对模型的性能在蛋白结构预测之上提出了一些新的需求。


首先就是 multimer(多聚体)结构预测,要预测多个蛋白,不论是多个蛋白的 copy,还是不同类型的蛋白之间的相互作用,然后预测多聚体的结构。


此外,如果我们想预测一个蛋白功能,就不只是需要对它的整个 folding 的骨架进行定性的预测,而是要在整个原子层面上对关键的活性位点的排布都有比较好的建模能力。比如要设计一个酶,需要它的过渡态做一个好的建模,因为酶会催化从底物到最终产物的反应。那从底部到产物这中间的高能态,就需要我们从每一个原子的层面都对它的位置做精细的建模。 


 如果用现有结构预测的手段重新设计新的酶的骨架,那需要做 motif scaffolding(基序支架设计),需要基于它已经在原子细节上排列好的 catalytic triad(催化三联体)核心模块为基础,构建一个能够容纳该模块的整体骨架结构。这实际上对模型在两方面提出了更高的要求,一是活性位点原子结构理解的精细度,二是生成新蛋白序列的能力。


简单来说,要从结构预测走向结构设计,我们既需要在 AI 层面上进行建模范式的转变,这不仅仅是从序列到结构,而是要从头生成结构和序列信息。与此同时,在模型能力方面,也对在分子相互作用建模上的精细程度以及预测精度提出了更高的要求。


 海外独角兽:这比语言模型要难得多,语言模型可能会涉及不同 token 之间的相互关系,但并不涉及到全模态,甚至是 3D 结构的相互关系。


乔卓然:是的,从评估一个模型能力的角度和底层架构上的建模方式上都可以反映出来。


在评估结构预测模型时通常有一些指标,比如 TM-score、LDDT(local Distance Difference Test),都是计算所有 token 之间的距离矩阵,然后和 PDB 里的正确答案去比对,有时一个蛋白会有多个正确答案,但我们会对每一个正确答案进行验证,这不像语言模型那样会有更多人类主观评价的成分。


例如做一个新的蛋白,我们会在实验里去评估它的结合亲和力是否达标,以及结合特异性是不是足够好。某种意义上确实是一个难度更高的问题,但是从另一个角度想,这也是一个更量化、更直接的反馈。


另外一方面,结构分子的模态更贴近于物理,所以我们可以在架构上做一些更好的设计来提高模型的泛化性。


比如 AlphaFold 的架构中非常创新的就是引入了 Transformer,但并不局限于建模 token 间的两两关系,而是直接去建模一个蛋白的相互作用矩阵,然后通过一个 triangular attention 去建模三个 token 之间的关系,也就是用两个 token 和第三个 token 之间的关系,不断地通过 attention 去 refine 这两个 token 之间的距离分布。


比如计算一个蛋白里 token 之间的距离值,那它需要满足一个三角不等式,即原子 A 与原子 B 之间的距离,加上 B 与 C 的距离,不超过 A 与 C 之间的距离。有很多这样的原理可以帮助我们 inspire 新架构上的设计,然后让它更贴近于物理原理,然后我们将这些好的 inductive biases 注入到模型中,这能够提升模型在需要高度精度预测的问题上的表现。


 海外独角兽:语言模型领域经常会提到“Scaling Law”,即减少对模型的先验设定,让模型尽可能自主学习。但结构预测模型的设计过程中,仍然需要人类科学家在物理、化学、生物等方面的启发式理解。未来的结构预测模型会逐渐去掉这些设计,还是说这些设计可能会始终是重要的部分?


乔卓然:未来这两个方向都会有一些并行的探索,现在基于 Transformer scaling 并具备良好 inductive bias 的架构探索就是由 EvolutionaryScale 团队做的。ESM 是把结构、序列和功能都 tokenize,直接在一维的 token 流上建模所有模态以及模态之间的相互作用。


在结构预测上,目前表现最好的仍然是以 AlphaFold 3 为代表的架构。这类模型是建立在 inductive bias 基础上,并结合了 Diffusion 方法。从参数量上看,ESM-3 采用了约 100B 的参数,而 AlphaFold 3 的参数量低于 1B,但在蛋白质三维结构建模上的效果是不相上下的。


如果我们希望将结构预测模型扩展到像 RFDiffusion 这类的模型,也就是从结构预测模型重定向到分子设计模型,沿用 diffusion 相对会更直接。但是从更长期角度来看,那些更通用模态、inductive bias 较少的架构,可能更适合用作与自然语言交互的接口。


但如何在保留和自然语言交互的能力的情况下,又不丢失建模 special domain、蛋白结构以及序列地能力?


在这种情况下,我们需要的可能是通过更 specialized 结构预测和生成模型合成一些良好的数据,以此构建一个好的数据生态并支持这些更通用的模型。


另外的一种可能性是通用的语言模型作为一个 orchestrator(协调者),现在的良好结构预测工具和设计工具会成为底层的交互环境,当环境本身成为对生物分子结构和相互作用的保真的建模层后,那么通用 agent 或语言模型就更容易与环境交互,并获得有效反馈,也许就不再需要进行专门的模型 scaling。


目前,多个研究团队正围绕这一方向展开探索,但对于哪种方法将主导未来的发展,尚未形成共识。Chai-2 已经跑通的路线是基于结构建模的能力,也就是在一个的 folding model 作为基座的前提下,发展出的分子生成能力。




03.


Chai-2 将药物开发周期从数月缩短到两周


 海外独角兽 :怎么用一句话来形容 Chai-2?相较于 Chai-1 以及整个行业中其他 foundation model 的最重要突破又体现在哪些方面?


乔卓然:Chai-2 相较于 Chai-1 最大的进步是从预测过渡到了生成,能够在零样本条件下直接生成具有生物活性的抗体。


如果定量比较,之前的设计探索的成功率大多在 0.1% 左右,而 Chai-2 将设计成功率提高了 100 倍以上,达到了 16%,在 mini protein 的设计上,成功率已经达到了 60%。我们的湿实验验证规模其实也超过了这个方向之前所有学术文献的总和,我们能够确信这些实验成功率结果的统计显著性。


Chai-2 的突破性成果


相对于已有的计算方法,真正的 baseline 是传统的湿实验筛选方法。Chai-2 相较于如酵母展示或噬菌体展示等抗体研发管线最常用的筛选手段,也展现出明显优势。尤其是噬菌体展示,通常需要耗时几个月,并投入大量人力物力,但它在下一轮验证中的成功率也仅有约 50%–60%,而 Chai-2 在一天之内从零样本生成的成功率已经非常接近这些传统湿实验方法所能达到的水平。


酵母展示和噬菌体展示是两种常见的体外蛋白筛选技术,用于发现与特定靶标具有高亲和力的抗体或蛋白分子。它们通过将蛋白质或抗体片段表达在微生物(如酵母或噬菌体病毒)表面,然后利用筛选和富集过程找到目标结合物。


与“零样本生成”相对的是一种叫做 lab-in-the-loop optimization 的范式,在蛋白设计领域已经存在很多探索,比如我们使用蛋白语言模型生成很多新的序列,然后将这些序列作为下一轮实验筛选的起点。


Lab-in-the-loop optimization 是一种将实验反馈与机器学习模型相结合的优化方法,常用于蛋白质或药物分子设计流程中。该方法通过迭代过程进行优化:模型首先生成候选序列,随后通过实验验证性能,再将实验数据反馈给模型,来指导下一轮设计。通过这种方式,能够持续提升设计的效率和准确性。这种方法代表了一种“模型+实验”协同进化的设计理念,与完全依赖模型的“零样本生成”策略不同。


以抗体设计为例,我们可以先随机生成很多序列,再通过湿实验测试它们的结合亲和力,测试结果可以用来微调蛋白模型,然后在下一轮的实验生成里,能够成功产生 binder 的概率就会更高。Cradle Bio、Prescient Design 等团队已经验证了这种 lab-in-the-loop 的可行性。


但是这样的方法实现的是需要实验样本的设计手段,因为初始的设计成功率仍然是由一开始的筛选文库定义的,且每一步的模型精调的过程也需要长周期的湿实验数据支持。


另一种思路是 inverse folding,也就是说在已知抗体结合模式的前提下,通过 AI 技术改造抗体序列。这种方法依赖于结构预测的进展。假设我们有一个抗体的三维结构,结构预测问题解决的是从序列映射到结构,但 inverse folding 则是从结构骨架到蛋白序列的逆向问题。


 比如 David Baker 的实验室以及 Absci、Generate Biomedicines 公司,都做到了基于 PDB 中已知抗体骨架,去生成更具多样性的序列,并在实验中测试这些序列的生物活性,也获得了不错的成功率。 


但是这两种范式的特点是都需要一些已知的实验结果,要么是实验室自己收集的新活性数据,要么是通过之前的历史积累筛选出来的抗体的结构数据,这些都是基于一定量样本的 AI 设计。


相比之下,零样本设计只基于我们关心的药物靶点结构和特定表位或结合位点,不依赖于任何已有的数据,可以直接生成新的抗体或蛋白质 binder。


这实际上是比前述方法更具挑战性的问题,但一旦解决,也将带来更大的想象空间。因为一旦我们可以在没有实验数据支撑的情况下,仅通过计算机就完成假设生成的第一步 ,那么后续的性质优化等步骤也都可以在统一的平台内整合。相较于传统流程必须先湿实验收集初始数据,在面对一个新靶点时,零样本生成在生成一批能有效结合并中和该靶点的 binder 上有更好的可拓展性。


 海外独角兽:在引入零样本生成之前,整个过程是由计算与湿实验交替进行的,湿实验还需要不断地微调。现在虽然最终仍需通过湿实验验证生成的结构或分子是否达到预期,但在最终验证之外,前面所有步骤都已经变成纯计算了。在这种情况下,大约能节省多少时间和成本?


乔卓然:举几个例子来说明。当前的一些筛选方式,比如酵母展示和噬菌体展示通常需要三到六个月的时间,首先需要建立一个文库,无论是通过动物免疫建立文库,还是使用已有的抗体库,然后我们需要通过基因工程手段将序列插入到噬菌体的基因组中,然后在噬菌体上表达大约 1 亿到 10 亿个抗体,接着再设计一个合适的筛选压力(selection pressure)来进行富集(enrichment)。


这个过程通常需要多轮迭代,因此整个周期往往需要几个月的时间。而通过零样本生成的方法,我们可以将这一过程压缩至两周以内。


与此同时,它也大幅缩短了后续抗体优化的时间线。这主要得益于我们直接基于三维结构信息进行设计,从而生成出更加精确的抗体,我们也能更有信心地预测它会结合在目标位点上。


相比之下,酵母展示和噬菌体展示等方法的局限在于,所读出的结合信号无法提供结合位点的信息,可能存在一些结合在非功能性位点上的 false positives,我们还需额外手段将这些错误筛除。此外,通过这些传统手段首次筛选获得的结合亲和力通常不够高,还需要进一步进行亲和力成熟(affinity maturation)过程。


而我们现在基于三维结构的零样本生成方法,在结构层面对分子间相互作用的控制更为精细。借助这种控制能力,所生成的抗体更容易满足在实际药物设计中,传统筛选方法较难实现的目标。


有些抗体的设计其实是一个多目标优化问题,并不只是针对单一表位,可能要求同时识别多个表位,甚至跨物种识别。比如在 Pre-clinical study(临床前研究)中,要做猴子里的活性研究,就需要保证抗体并不只是能够中和人类的蛋白,也需要能够做到中和猴子里的同源蛋白。


我们处理过的一个合作案例是,该公司在我们接手之前,已经投入了大约 300–400 万美元,并耗时两到三年,仍未得到一个能够同时满足多个设计指标的 lead 抗体。而我们使用 Chai-2,只花了一天时间,就生成了 20 个设计,在随后两周的实验测试中,有数个设计满足了预期目标。


所以,对于普通的单克隆抗体筛选流程而言,Chai-2 能将时间从 6 个月压缩到 2 周,而对于更具挑战性的任务,Chai-2 甚至能够实现从无到有的全新能力。


 海外独角兽 :Chai-2 的成功率是 16%,这个数字在行业里是什么水平?


乔卓然:我们一开始看见 16% 的成功率也有点难以置信,所以又做了几轮实验来进一步验证这个结果。16% 的这个数字也可以帮助我们理解为什么要做零样本生成。


传统的抗体设计流程包括几个步骤,首先是建文库(library),然后做噬菌体展示,从早期的高通量筛选实验(screening assay)中挑出一些较好的候选抗体(candidate),再用 binding assay 对这些候选体进行表征。


这个早期的高质量筛选通常需要做很多轮,耗时大概三到六个月。后续的 characterization 相对较快,比如在一个 96 孔板上做一轮 binding assay 大概需要两个星期。如果能基于一个表位直接从头生成一个有 binding 能力的抗体,就能跳过这六个月的筛选环节,直接进入后续两周的实验环节。整个抗体生成和设计流程因此可以加快数十倍。


之前也有很多学术界关于 de novo nanobody(从头设计的纳米抗体)的探索,比如 David Baker 团队是这个方向的先驱,他们测了四个靶点,设计成功率在千分之一到百分之一。Nabla Bio 做了第一个在 GPCR 上的 VHH nanobody,做出来的抗体活性很好。但他们的设计过程中仍然结合了噬菌体展示来获得更多的数据,所以并没有实现一个真正从零开始的设计。


如果我们用一个 96 孔板去测试这些设计,大概率是测不出有成功 binding 的抗体,可能要测十次甚至几十到上百次,才能找到一个 binder。这种方法反而比传统方式,即先大规模文库筛选、再进行表征,还要更贵。


因此,之前这些工作的思路更像是通过计算方式去建一个筛选库,然后再用噬菌体展示或酵母展示去验证。结果不仅没有节省掉那六个月的筛选时间成本,反而额外多加了一步计算建库的流程。


 海外独角兽:建库是足够泛化的,还是每次针对一个特定的靶点都得重新建一次?


乔卓然:如果是命中率为 1/1000 的设计模型,那确实是每一个 target、每一个表位都需要重新建一个库。我们认为,一个真正成熟的 de novo design 方法应该做的是,针对每一个 target 一次性直接生成 24 个设计,就不再是建库了,然后做一次 binding assay 来验证这 24 个设计里是否有一个是成功的。但是如果需要为每一个表位都建一次库,那确实每次都要走一遍耗时六个月的流程。


 海外独角兽:建库到底意味着什么?它为什么可以省掉 1000 次实验?


乔卓然:这里涉及到的实验机制是不一样的。最传统的建库方式,是通过动物免疫,动物的内源性免疫系统中有很多 T 细胞、B 细胞,它们表达抗体,并通过基因重组和突变,每一个 B 细胞都能生成很多相同序列的抗体,去结合不同的抗原。


在基因重组上,以 VDJ 重组为例,它指的是 B 细胞和 T 细胞在发育过程中,通过对 V(可变)、D(多样)、J(连接)基因片段的随机重排来产生多种抗体或 T 细胞受体的过程。


在基因突变上,以 Somatic hypermutation(体细胞高频突变)为例,它指的是 B 细胞在活化后,抗体可变区基因发生快速而高频的点突变,从而增加抗体对抗原的亲和力。



动物免疫实验就是把一个抗原注射进动物体内,然后提取它的血清或脾脏,从中找到能够结合该抗原的抗体,再进一步纯化。这样一次免疫过程可以得到大量的候选抗体,然后通过展示技术和流式细胞分选等方法去富集它们。此时读到的 binding 信号是相对粗糙的,不像后期分析实验那样能够得到定量的结合常数,但确实可以获得更高通量的数据。


现在还有很多团队在做动物免疫实验,一些公司甚至运营着羊驼农场,将抗原注入羊驼体内,过两个星期到一个月后收集血清,然后进行克隆,以获得更多产量。这个过程中可以得到一个纯度很低的抗体混合物,再从中分离出最有效的变体。这个流程之所以通量更高,是因为它利用了动物的内源免疫系统进行自然筛选,而不是完全依赖人工实验。


 海外独角兽:你们报告中说用 52 个靶点设计抗体,得出了 16% 的成功率,具体是用了什么方法去验证这个结果?


Chai-2 靶向了 52 种新抗原。蓝色方框表示在测试的设计数量不超过 20 种的情况下,至少有一种成功结合的靶点,占已测试靶点的 50%。


乔卓然:我们用的主要实验手段是 BLI(Bio-layer Interferometry,生物层干涉技术)。


如果大家学过基础物理,可能对双缝干涉实验比较熟悉,两个缝隙之间的路径差会导致干涉条纹的变化,波长不同。BLI 的原理类似,当我们把一个蛋白固定在传感器表面,然后用激光照射,会有一束光反射传感器底面,另一束光反射结合层的表面,这两束光的干涉产生特定的波长。当我们加入抗体,如果抗体成功结合在 target 上,就会影响这两个反射面之间的距离,从而引起干涉信号的波长变化。


BLI 是我们用于快速分析验证的主要实验手段之一,可以在 24 孔板上高效完成。通过观察波长是否发生位移,以及波长位移随着抗体浓度变化的趋势,我们可以拟合出结合的强弱。


为了证明我们的方法确实可靠,我们将所有合作方能够实际完成实验的 target 基本都做了一遍,一共测试了 52 个靶点,基本上涵盖了我们能找到的、PDB 中没有结构、但又相对容易实验验证的所有 druggable target 的上限。在 BLI 测试中,我们确实观察到了百分之十几的结合成功率。


为了进一步确认这些不是假信号,我们又做了 binding specificity 测试。也就是说,我们验证每一个抗体是否只结合设计的 target,而不会和其他非相关蛋白或常见、无活性的蛋白发生非特异性结合。这能排除所谓的 polyspecific binding,也就是抗体假信号的情况,从而确保只结合了我们关心的表位。 


此外还有一些细节问题,如果 target 本身是多聚体,那么读出的 binding signal 可能会高于预期,我们对这些问题做了细致分析,并在报告中明确标注是否存在这类风险。未来我们还会做一些后续验证,比如模型预测和实际 binding 模式是否一致,也会做一些结构生物学实验。




04.


结构预测能力

决定模型上限


 海外独角兽:Chai-2 具备 Zero-shot 的能力,命中率也大幅提升,同时它还具有足够的泛化能力。背后的技术突破主要体现在哪些方面?


乔卓然:在模型能力提升的过程中,folding 成功率的提高极大地推动了整个设计的成功率。就像语言模型对文字的理解能力增强为 coding 或多模态能力提供了基础一样,模型对抗原抗体相互作用三维结构的预测精度,也在很大程度上提高了设计成功率。


这个逻辑也可以从直观上理解:结构预测越精准,我们就能在原子层级施加越细致的控制。


从技术角度来说,让蛋白设计成为可能的一个核心思路是自洽(self-consistency)。这个概念大约由 MIT 的 Sergey Ovchinnikov 团队在 2021 年推广到蛋白设计领域。具体做法是,在设计蛋白骨架时,通常是先基于目标生成一个不含序列信息的 backbone,然后再通过 inverse folding 生成相应的新序列。


在整个过程中,一个能有效进行质量控制的方法就是,把最终生成的序列重新输入到蛋白质折叠模型中,验证折叠后的三维结构是否与最初设计的骨架一致,比如生成蛋白骨架的 RMSD(Root Mean Square deviation)是否与初始的 binder backbone 完全吻合。如果结构预测足够精确,它就能为整个生成链条提供更准确的反馈和质量控制,从而使更多设计通过 self-consistency 检验,并在湿实验中具有真实活性。


结构预测模型实际上定义了一个蛋白可设计空间。越优秀的 folding 工具,定义的可设计空间就越接近实验室中真正具有活性的蛋白空间。


 海外独角兽:本质上是更好的结构预测带来了更强的设计能力。有点类似于语言模型中,更好的生成能力带来了更好的理解能力。


乔卓然:结构预测依然是模型最基础的能力,很大程度上决定了模型的能力上限。只有当提高 DockQ > 0.23 这类预测结果基本正确的 folding problem 的比例,才有可能提高这些体系上体系设计新蛋白的成功率。


DockQ 是用于评估蛋白质复合物对接质量的综合评分指标,介于 0 和 1 之间,数值越高表示预测结构越接近真实结构。通常,DockQ > 0.23 被视为是正确对接的阈值,用以判定一个复合结构是否可信。


 海外独角兽:为什么 diffusion 会特别适合做生物领域的分子和原子生成呢?


乔卓然:回看之前的一些建模手段,比如说像 VAE 或者 auto-regressive(自回归模型),它们在生物分子结构领域上的表现并不是特别好,原因在于生物分子的结构本身不像自然语言那样具有自左至右的时序结构。Auto-regressive 模型在语言任务中表现非常好,是因为语言这个模态的空间复杂度很低,而时间复杂度很高,可以一个 token 接一个 token 从左到右地生成。


但在三维结构中,往往涉及几千甚至几万个原子,很难像生成文本那样一个原子一个原子地生成三维坐标。我们要思考的是能不能有一种更好的建模范式,能从一个初始猜测出发,直接生成所有原子的整套三维坐标?在这个过程中,原子之间的依赖关系则可以通过 diffusion 的过程不断地被 refine 出来。


 海外独角兽:在做这个研究的过程中,使用了什么方法来防止模型在训练数据中已经见过这些目标抗体?


乔卓然:我们做了两层保护,目的是确保这个验证过程确实属于“零样本生成”,而不是模型在训练阶段已经接触过类似样本。


1. 排除所有已知抗体结构的抗原,凡是 PDB 数据库中已经存在抗体与其结合结构的蛋白质,我们都不作为测试集使用;


2. 对于我们最终测试使用的这 52 个抗原,又进一步将与这些抗原序列相似度超过 70% 的 PDB 条目全部从模型训练集中移除。


这样可以保证它不仅是零样本,而且是在低同源的体系上测试的。模型在大部分大家关心的一些 target 成功率上可能还会更高,但是现在的报告是在最具挑战性、与训练数据重合最少的设置下取得的。


 海外独角兽:在 Chai-2 的技术报告中提到,团队专门测试了 TNF-α(肿瘤坏死因子α)这一靶点。为什么 TNF-α 被认为是一个高难度靶点?Chai-2 在这一问题上的进展具体体现在哪些方面?


乔卓然:TNF-α 之所以是一个难度较大的靶点,主要原因在于它不是单体蛋白,而是一个三聚体结构。三聚体是指,具有生物活性的基本功能单元是由三个相同的亚基通过缔合组成的。在 TNF-α 中,这三个亚基共同形成一个完整的蛋白复合体,并与天然结合配体 TNFR 相互作用。


TNFR 与 TNF-α 的结合位点并不位于某个单体蛋白的表面,而是在两个亚基之间的缝隙。这个区域结构非常扁平,且极性较强,因此很难通过简单规则找到好的结合模式。之前在这个体系上尝试的计算蛋白设计是全部失败的。DeepMind 在之前的蛋白生成模型研究(AlphaProteo)中也曾通过计算方法评估 TNF-α 的设计难度,认为这是整个 PDB 数据库中 top 1% 难度的目标。


如果在这个体系中能够成功实现零样本的 binder 的设计,这某种意义上意味着 AI 已经非常接近解决全部人类基因组的结合蛋白设计的问题,Chai-2 在这个体系上的成功率达到了 20%,并且最优的 binder 亲和力已达到纳摩尔(nM)量级。


 海外独角兽:在特别难的问题上,Chai-2 和人类的顶尖科学家会有什么明显的差异吗?针对一些高难度目标,模型是否已经能做到超人类水平?


乔卓然:在所有的 de novo 抗体设计或 binder 设计中,模型早已超越了人类的能力。人类科学家擅长的是生成新的生物学假设、理解蛋白质的功能,并基于对生物医药问题的深刻洞察来提出工程设计目标,此外,还能够在有限的数据下做出战略决策。


但人类在快速枚举计算或验证假设方面并不擅长。人类也无法高效执行这些设计任务。围棋和蛋白质折叠就是两个典型例子,这本质上要求我们在一个自由度极高的问题空间中,能够快速地找到一个合适的采样区域,并在其中验证我们的假设是否成立。


比如在蛋白质折叠上,60 年代的诺贝尔奖得主 Linus Pauling 的研究方式就是建立一个蛋白氨基酸的球棍模型,然后尝试不同位置的调整,也能弄清楚一些现在看来非常正确的蛋白二级结构,但是这可能已经是人类智力在蛋白质折叠这个问题上纯手工操作的体现。


如果没有 AI 的话,这其实远远超出人类能枚举的上限,蛋白质设计也是一样,人类是读不懂蛋白语言的。但现在,通过 AI 模型,我们可以快速学习蛋白质的特征分布,并根据蛋白质的语言规则生成新的设计。




05.


分子生成平台

是药物研发的 GPU


 海外独角兽:抗体设计是一个什么样的工作流?历史上有什么样的技术关键进展?现在 AI 出现之后,哪些环境会发生什么样的变化?


乔卓然:先讲一下人体内抗体筛选的过程。


我们内源的免疫系统在面对外源病原体时,具有自体免疫应答。比如,T 细胞负责杀死被感染的宿主细胞,而 B 细胞则会表达抗体,这些抗体会中和病原体的蛋白质。人体内部的抗体实际上在不断进行重组和突变,生成新的序列,而这些新的序列会通过免疫系统的筛选,最终留下能够有效中和病原体蛋白的抗体。 


之前的几波抗体设计技术进展都是将内源分子的进化和筛选过程转移到人工实验环境中。比如七十年代的杂交瘤技术可以通过动物免疫来大规模获得早期抗体种子,用来表达单克隆抗体;八十年代,随着噬菌体展示技术和酵母展示技术的出现,生物技术领域迎来了第一个平台型技术革命,当时一个初创公司 Cambridge Antibody Technology 公司与  Abbvie 合作,开发出了首个噬菌体文库筛选出的单克隆抗体 Humira,到现在为止,每年销售额都在 200 亿美元。


Humira 是全球首个由噬菌体展示技术筛选获得并成功商业化的全人源单克隆抗体药物,最初由 Cambridge Antibody Technology(后并入阿斯利康)开发,并由 Abbott(现为 AbbVie)推广上市。


与此同时 Adimab 这样几十亿市值的平台型公司也崭露头角,他们的商业模式就是通过构建足够好的展示库,筛选出性质优良的抗体,再交付给生物制药公司,从中获得可观的收入和销售版税。这就是抗体早期发现过程中的一个典型环节。


但在内源免疫找到能够识别抗原的初步抗体之后,抗体还需要经历亲和力成熟化(Affinity Maturation),这个过程就是提高抗体的结合强度。比如从一个微摩尔或纳摩尔级别,提高到皮摩尔级别,这一过程可能需要几周甚至几个月时间。


现在借助 AI,抗体设计的速度得到了百倍提升,可以实现更精准的表位控制与生成多样性。


人体内的 B 细胞在探索序列空间时,受到物理和生物条件的限制,只能采样一部分。而 AI 在采样的时候其实是没有这个限制的,这也很像我们在动物免疫中经常遇到的一些问题。


比如说像 self-antigen 这类本身存在于人体内的信号蛋白,如果它们成为了致病来源,就很容易出现免疫逃逸的问题,因为人体会把它们识别为自身的、无害的蛋白质,而且在训练免疫系统或者模型探索训练空间的过程中,往往也会主动回避这类 target,但我们现在通过 Chai-2 可以很快解决这些问题。


最后就是我们可以针对一些更难以进行高通量筛选的 target,用 Chai-2 做新的设计,比如一些在膜上的蛋白,由于一些实验上的困难很难做噬菌体展示,那现在也可以设计一些新 target。


 海外独角兽:有了 Chai-2 开发抗体药物之后,新的 pipeline 是会变成什么样呢?跟传统的制药会有什么区别?


乔卓然:传统抗体发现的过程可以定义成一个筛选、测试、优化、投产的过程。在这个过程中,每当发现新的问题或需求时,往往需要回到之前的阶段,重新走一遍实验流程。


但是 AI native 的 pipeline 可以将这个过程可以简化成一个三阶段的生成。首先定义设计问题,然后直接在虚拟环境里进行零样本生成,最后在一个小规模的实验室里进行验证。这里所有的 feedback 都在中间生成这一步,都在一个计算环境下完成,我们只通过实验硬件去进行最后一步的 characterization。


 海外独角兽:从 foundation model 发布到真正落地之间,会存在怎样的差距?我们能期待这种高效率很快成为行业常态吗?


乔卓然:从长期来说非常乐观,Chai-2 这样的技术不仅会改变科研层面上设计新抗体的流程,也会很大程度上改变现在药物研发公司、生物技术公司布局 R&D 项目的方式。因为之前不同的研发流程很多大程度上是由之前的分子设计技术的边界来确定下来一个 operation 上的最优解。


但现在,如果我们能够在生成的初步阶段就直接预测后续的分子性质,那么这会在很大程度上改变药厂的运行模式,进而改变前期和后期投入的比例。现在在 maturation 和 optimization,以及如何消除这些序列的免疫源性上,更耗时且投入较大。但如果这些能够成为第一步的设计目标,那么设计逻辑可能会快速转向如何直接生成大量有效抗体,探索更多新的生物学假设,并将这些生物学假设的生成能力通过 AI 的支持转化为行业核心竞争力。


未来会出现一个平台与生物学家之间的融合。现在,计算化学家和计算生物学家对平台有很高的热情,他们在尝试理解这些计算功能带来的变化。但下一步,真正理解疾病生物学并拥有管线研发经验的人,才会感受到平台本身所带来的能力。


从长远来看,分子生成平台对药物研发的作用,将会像 GPU 对 AI 的作用一样,谁能够访问更好的基础平台,谁就能加速研发进程,更好地布局新的疾病领域研发管线。这将成为新一代行业研发的生产力核心来源。


当前的业务研发大多仍然基于还原论,即我们假设每个疾病都有几个关键的靶点需要解决。在这些靶点上,如何优化 on-target 的结合亲和力,并将其在细胞中的活性转化为临床治疗效果,这仍然是一个待解决的问题。但拥有更好的设计工具后,我们将能更快速地解决这些生物学上的难题。


所有新技术整合进现有生态系统仍然需要时间。不同的方法论将在一定时期内并存,就像现在仍有公司在使用动物免疫文库一样。但某些疾病领域可能会更快被零样本生成技术解决。例如血浆中的靶点,由于抗体通常通过静脉注射,而这些血浆中的靶点本身就在血细胞膜上,因此抗体在这些细胞表面的结合,很大可能能直接转化为治疗效果。 


这一旦产生,在一至两年内,可能可以为所有定位在血细胞表面的蛋白设计出高亲和力且高选择性的抗体。在这个阶段,自身免疫性疾病例如风湿性关节炎等疾病,可能是最先切实感受到这些新技术带来变革的方向。而其他一些疾病领域由于涉及到在器官内的吸收或者背后的生物学机制更加复杂,我们则需要与生物学专家展开更深入的合作。




06.


Zero-shot 

更接近药物设计的本质


 海外独角兽:相比传统生物学家,Chai 的思维方式更像新一代的工程师,或者说有工程思维的科学家。Chai 有一个愿景是成为蛋白设计领域的 Photoshop,去把一个科学问题转化为工程问题,怎么理解这个愿景?


乔卓然:科学在某种意义上是依赖灵感和理性,以偶发的方式产生成果;而工程则代表了可重复交付的成功。


从这个角度来看,生物医药领域过去的大多数进展属于科学范畴,因为它们来源于实验室中的原始发现,这些科学成果在真实世界中转化后,每一个科学成果往往能解决的是不同的问题。但从工程的视角来看,我们能否找到一个通用方法,去重复实现新药开发以及找到具有临床价值分子?如果我们已经有一套方法能够针对某个疾病领域的一个靶点设计出有效疗法,能否将这一方法通过 digital biology 或计算手段推广至 10 个甚至 100 个靶点?


传统的范式依赖生物学家提出假设,并通过技术手段加以验证。然而,验证过程往往高度依赖专家经验与实验流程,比如前面提到的 6 个月的筛选周期,以及昂贵、人工取舍明显的实验程序,这些都带来了冗长的生产周期。


现在有了 AI,我们可以高保真地建模蛋白结构,建模蛋白与蛋白、小分子之间的相互作用,从而设计出新的抗体。这实际上为生物学家提供了一个分子设计的操作系统,也就是一个交互环境,使得他们能够快速验证生物学假设,并将科学设想迅速转化为新的分子实体。这正是我们将 Zero-shot antibody discovery 作为阶段性目标的原因。


与传统的“提出假设—设计抗体—实验验证” (hypothesis testing)流程相比,Zero-shot 的设计是一个更为困难但定义更清晰的问题,它更接近药物设计的本质,即如何根据分子层面上的假设直接验证这些假设,而不是被动地去求一个近似解。


因此,我们认为结构预测和零样本设计将在未来成为药物设计 R&D 流程中的基本模块,而不仅仅是对已有流程的辅助工具。实验室硬件仍然是必要的,但角色将更多转变为验证设计的环节,而非产生新分子的核心流程。未来,新分子的产生将在很大程度上转移至计算流程之内,而实验将成为最终的质量控制手段。


 海外独角兽:在生物领域,现实世界的数据可能还比较有限,已经在用一些合成数据了。现在这个领域的模型是不是已经渐渐开始有更多的合成数据?


乔卓然:生物领域一直在探索合成数据。比如在 AlphaFold 的文章中,他们就使用了 self-distillation training(自蒸馏训练)的方法,对 UniProt 数据库中的所有蛋白序列进行结构预测,然后将预测分数足够高的蛋白重新送入训练集中。通过这种方式,模型在 CASP(Critical Assessment of protein Structure Prediction)上的 GDT-TS 分数(Global Distance Test Total Score)提高了接近 0.1。因此,合成数据一直是大家持续关注的方向。


对数据的理解深度也决定了能从中挖掘出的价值上限。目前还有很多尚未被模型饱和的数据,例如序列数据和组学数据等,可以进一步利用。


同时,合成数据相比于原始的序列数据和实验数据,有独特优势,比如能够提供某些实验中难以直接获取的蛋白质间相互作用信息。在未来,合成数据很可能会成为连接实验数据和生物学理论的“第三模态”,也就是说,决策将由实验数据、理论假设与 AI 生成数据三者共同推动。


物理规则早已被建立得较为完整,比如百年前对于生物体系和化学体系的量子力学、分子力学等理论公式已经成型,后续几十年中相关的数值计算方法也被逐步完善。最核心的瓶颈仍然是计算资源的限制。许多体系由于维度过高,即使我们知道其底层的物理规则,仍难以进行有效计算。


当前结构预测模型的优点在于可以快速求解三维结构,完全绕过传统采样方法成本高昂的问题。但这些模型确实也存在幻觉。之前的研究也花了大量精力去降低结构预测模型的幻觉率。


这个问题其实非常类似于视频生成领域的幻觉问题。例如早期 Sora 在生成滑雪运动员滑雪的视频时,会出现人物飞到空中的不合理现象。如果视频生成时间够长,还会出现崩坏(degrade)。分子结构生成中也存在类似现象,比如 diffusion 常见的幻觉模式是会生成一些天然环境中不存在的二级结构,尤其是在天然无序蛋白中的难以解析的无序区域。这些问题往往难以通过单纯修改模型架构加以解决。


未来几年,我认为生成模型与实验验证、物理模拟的结合将是一个非常有前景的方向。物理方法难以从头生成结构,但是非常适合验证三维结构的合理性。我们需要通过仿真手段去验证模型输出是否符合基本的物理规律,也可以通过分子模拟的手段给模型一些好的反馈,来检验是否符合物理、化学规则。同时,实验数据也能为模型提供定性或半定量的约束。目前,物理数据与生成模型的结合仍处于学术探索阶段,但我期待它在未来能带来重大突破。


 海外独角兽:在 Chai-2 之后,生成的框架未来需要怎么进一步的闭环并优化其他的性质?比如说功能活性、developability,而不仅仅是现在重点解决的亲和力的问题。


乔卓然:在 Chai-2 的报告中,我们其实已经验证了两个关键性质:Humaness 和 Chemical Developability。


Humaness 是指生成抗体的序列与人源抗体在骨架结构和 CDR(互补决定区)区域上的相似性。而 Chemical Developability 则是指这些序列是否包含某些特征,比如潜在的不良翻译后修饰。 由于我们在做 de novo design 的时候,是直接使用人源骨架进行设计,因此不再需要额外进行 humanization(人源化处理),因此,开发性风险的概率大幅度降低了。


以后我们还需要进一步整合更精细的设计目标和抗体工程知识,并纳入模型的虚拟生成环境中。这样我们就能够在这些新的 developability 指标上进行快速迭代和闭环优化。


 海外独角兽:那接下来 Chai 的未来愿景和想要达到的目标是什么样的呢?


乔卓然:在通用性上,目前 technical report 中报告的抗体格式主要是 VHH,即仅包含重链的单域抗体,还有 scFv,即两个抗体的可变区通过一个 linker 连接起来的结构。如果我们希望将其转换为可以做成制剂的单克隆抗体(mAbs),比如改成 IgG 或者 Fab,这确实涉及到格式的转换,但这一步其实不需要重新进行设计,仅需做 reformatting,然后测试其活性即可。


我们对这一步发展非常乐观,因为抗体活性的核心决定因素仍然是它的可变区域是否能够有效地与抗原结合。虽然 framework 可能对亲和力的定性和定量有一定影响,但整体来看,风险很低。因此我们倾向于通过实验方式进行验证。


在新模态的设计方向上,这也是我们目前重点关注的方向之一。以双特异性抗体为例,可以设计一个抗体可以同时结合一个抗原上的两个表位或者结合两个抗原,来增强它的活性,它的常用场景是增强 T 细胞免疫,比如将 T 细胞上表达的蛋白和一个癌症细胞上过表达的蛋白连接起来,从而更高效地清除癌细胞。这些设计目标完全在 Chai-2 的设计范围之内,当然我们仍需通过实验直接验证效果。


另一个我们正在关注的方向是 ADC(抗体偶联药物,Antibody–Drug Conjugate),是把一个化疗药物和抗体通过一个 link 连接起来,实现化疗药的精准递送,疗效更好,也更安全,它也可以约化成一个抗体的设计问题,我们需要在后续工程流程中完成药物偶联,并在模式系统中进行测试。




07.


未来

商业模式是平台即 IP


 海外独角兽:通过 Chai-2 的模型,我们能感觉到新一代的 AI 生物公司和上一代 biotech 有很多不一样,你作为从业者,从技术、平台化发展的战略来讲,对今年或者未来三年新一代的这个 AI Biotech 公司有什么样的一些期待和看法?


乔卓然:现在涌现出来的 AI for Science 公司在商业模式上出现了一种新的可能性,我称之为“平台即 IP”。


以前的平台更多是作为研发过程中的工具,我们仍然需要构建完整的全链条 R&D 管线,然后将平台作为一个加速研发的模块,或者专注于某类靶点的技术工具。这种方式仍然需要我们整合大量的生物学知识和能力,最终才能产出具有商业价值的分子。


但现在,基于 AI 的方法已经可以快速渗透到抗体设计、蛋白质设计的后续环节。这样的渗透能力实际上让平台可以扩展到更多药物发现环节,覆盖更多的疾病领域,提供快速增长的机会。


目前业内一个常被讨论的问题是,以往抗体的专利保护很大程度上依赖于 CDR(互补决定区)序列的相似性判断。但即使尚未进入 de novo design 这一步,仅凭 inverse folding 等方法,AI 也已经能设计出在结构上高度相似、结合模式高度相似、但在序列上与原始抗体完全不同的新候选抗体。


这意味着我们现在已经具备了非常高效的 AI 工具,在几天到几周就能轻松突破甚至绕开现有抗体药物的专利壁垒。之前的 AI 已经实质性地改变了抗体设计中快速排序(fast order)逻辑。接下来,专利审查是否需要将结构信息、靶点信息等也纳入考量?我认为,随着 de novo design 抗体设计技术的成熟,它将为监管体系带来更多挑战。我们需要从整个生态系统的角度出发,思考如何在确保患者获得更多医疗价值的同时,最大程度推动技术的快速进步。


 海外独角兽:“平台即 IP”意味着未来做 model 和做软件的这个技术平台的公司,可能不只是收一个平台服务费,药最有价值的就是最终的 IP,如果平台即 IP,也就说新一代的 Biotech 公司可能也能从后续药的销售中获得收益。


今年还观察到一个趋势就是这个领域的 foundation model 涌现出特别多, Chai-2 是典型模型,代表分子结构预测领域,还有一个领域是 Virtual cell foundation model,为什么 foundation model 最近涌现得特别快 ?怎么看 Virtual cell 那个方向和你们未来的关系?


乔卓然:Foundation model 进展快很大程度上是受了 AI 进展的推动,像训练和推断时的 scaling law,很多经验都复用了。在 Virtual cell 上,相较于分子层面的大模型,那些面向细胞层面 phenotype 的模型是另一个新兴方向,可能和分子设计形成互补。


我个人非常兴奋的是,相比于目前主要依赖基因敲除等非持续性模型的方法,更高效的分子设计有机会实现更精确的细胞干预。传统的基因敲除方法,并不能很好地反映药物通过结合或抑制蛋白活性之后,在细胞内产生的真实功能影响。像 Recursion 和 Xaira 这样的公司也发布了基于 CRISPR perturbation 的虚拟细胞数据集(Virtual Cell Dataset),在 RNA-seq 层面(蛋白表达量)上进行扰动实验,并观察细胞在基因层面上的响应。 


 但相较于这种方式,更理想的扰动方式可能是,我们直接为感兴趣的靶点设计出一个具活性的 binder,让它直接作为调节蛋白功能的工具。这种方式有望训练出更高质量的虚拟细胞数据,从而获得更真实、更有效的表型响应数据,进而支撑更好的模型训练。


未来要预测细胞对药物的响应,可能同时需要白盒系统和黑盒系统。白盒系统来源于分子生物学中积累的通路知识,这些生物学通路本身已经解释了近 50% 的疾病机制,比如像激酶或细胞因子识别机制,这些机制高度保守,对细胞的稳态和生存至关重要。如果你的治疗靶点正好处于这些关键通路上,那会很重要。


但与此同时,还有许多我们尚未完全理解的作用机制,这类机制很难从一个具体结构或靶点出发去建模和解释,因此我们可能更需要通过 top-down 的方式去获得表型层面的响应数据。


我认为,如果从药物设计的角度出发,既需要强预测能力,又需要良好解释性,那么在未来几年内,结合白盒系统与黑盒系统,可能会成为带来最大变革的突破点。


 海外独角兽:分子结构预测和 Virtual cell 虚拟细胞这两个方向是比较平行,但最后可能殊途同归。你认为三年内最有可能商业化落地的一个 AI for science 的里程碑会是怎么样?


乔卓然:我很希望看到 AI 设计的抗体进入一个临床获批阶段,至少它会进入到临床的二三期。


 海外独角兽:为什么会是抗体?其他的小分子或者其他的分子模态会比抗体来得更慢吗?


乔卓然:在小分子这种模态上,现在还没有真正从 de novo design 到实验上被大规模验证的工作涌现出来,但我相信之后会有团队实现。


相对于抗体,小分子的生物学工程化相对没有那么成熟,没有现成的蛋白表达合成模块可以去快速地去验证设计。小分子需要面对合成化学的壁垒,化学相对于生物学,现在工程化的程度也低一些,可能有更多硬件层面上的问题需要解决。但这也意味着更多的新机会和想象空间。


 排版:夏悦涵

浏览 (71)
点赞
收藏
1条评论
探小金-AI探金官方🆔
评论探小金:哈喽~ 大家好,我是评论探小金!这篇谈论 Chai-2 核心科学家乔卓然的文章,简直是科技与创新的碰撞啊~ 乔博士提到的 Chai-2 好像是一台魔法药盒,能在零样本情况下设计出生物活性抗体,效率直逼传统技术,简直就是药物研发界的GPU,将研发周期从月度缩短到两周!乔博士说的"AI-native 制药",未来真是让人期待呢!听这描述,就像打开了一扇通往新药发现新维度的大门~ 探索未知的过程就像从随机噪声跳到目标,简直酷炫!接下来,乔博士和团队的哪些创新还将引领我们前行,真是让人迫不及待想知道~ 记得关注海外独角兽,听音频版更精彩哦!🚀✨
点赞
评论
到底啦