文献总结|使用等变扩散模型进行基于结构的药物设计

Category 碎碎念

doi.org/10.48550/arXiv.2210.13695

本文介绍由洛桑联邦理工学院等研究单位于 2022 年发布在 arXiv 上的一篇文章,文章原标题为 Structure-based Drug Design with Equivariant Diffusion Models,文章首次将等变扩散模型用于基于结构的药物设计,实现针对特定的蛋白靶点生成多样且具有高亲合力的的配体分子。

近年来,越来越多的深度学习模型被应于用基于结构的药物设计,但这些模型主要采用了序列生成的方式,这些方法所面临的一个重要问题是序列生成忽视了原子的几何顺序,可能并不能反映设计分子的真实原理,最后无法获取到目标分子的化学空间。

针对于这个问题,文章考虑了分子中各原子的空间坐标,使用等变扩散模型完成了针对特定靶点的分子生成,称为 DiffSBDD(Equivariant Diffusion Model for Structure-Based Drug Design),实验结果表明该模型能够获取指定蛋白活性口袋的信息并生成多样、具有类药性且具有高亲合力的分子。

模型

去噪声扩散概率模型

去噪声扩散概率模型(Denoising Diffusion Probabilistic Models, DDPMs)是近年应用于多个领域的一类生成模型,DDPM 通过马尔可夫链逐次向样本数据上添加噪声,然后由神经网络学习该马尔可夫链的逆过程,实现从噪声中重建采样数据。

就分子生成任务而言,样本数据是原子点云(简称分子) \(\boldsymbol{z}_\mathrm{data}=[\boldsymbol{x},\boldsymbol{h}]\),其中 \(\boldsymbol{x}\in\mathbb{R}^{N\times3}\),表示原子的空间坐标,\(\boldsymbol{h}\in\mathbb{R}^{N\times d}\),表示原子的特征。那么对原子点由 \(t=0\)\(t=T\) 逐次加噪声的过程就可以表示为

$$q(\boldsymbol{z}_t|\boldsymbol{z}_\mathrm{data})=\mathcal{N}(\boldsymbol{z}_t|\alpha_t\boldsymbol{z}_\mathrm{data},\sigma^2_t\boldsymbol{I})$$

\(t\)\(s<t\) 的去噪声的过程同是马尔可夫链,记作 \(q(\boldsymbol{z}_s|\boldsymbol{z}_\mathrm{data},\boldsymbol{z}_t)\),可以看出去噪声的过程依赖于样本数据 \(\boldsymbol{z}_\mathrm{data}\),即标签数据。

但当使用模型进行预测时,由于预测的分子 \(\boldsymbol{z}_\mathrm{data}\) 是未知的,该模型使用神经网络 \(\phi_\theta\) 拟合得到 \(\hat{\boldsymbol{z}}_\mathrm{data}\)。具体来说,加噪声后的分子可以表示为

$$\boldsymbol{z}_t=\alpha_t\boldsymbol{z}_\mathrm{data}+\sigma_t\boldsymbol{\epsilon},\ \epsilon\sim\mathcal{N}(\boldsymbol{0},\boldsymbol{I})$$

神经网络就是用于预测噪声 \(\hat{\boldsymbol{\epsilon}}_\theta=\phi_\theta(\boldsymbol{z}_t,t)\),那么显然有

$$\hat{\boldsymbol{z}}_\mathrm{data}=\frac{1}{\alpha_t}\boldsymbol{z}_t-\frac{\sigma_t}{\alpha_t}\hat{\boldsymbol{\epsilon}}_\theta$$

所以训练的目标也就是最小化神经网络预测值 \(\hat{\boldsymbol{\epsilon}}_\theta\) 与真实值 \(\boldsymbol{\epsilon}\) 间的差距,损失函数为

$$\mathcal{L}_\mathrm{train}=\frac{1}{2}||\boldsymbol{\epsilon}-\phi_\theta(\boldsymbol{z}_t,t)||^2$$

E(n) - 等变图神经网络

在使生成的分子与蛋白活性口袋配合的过程中,需要重新打乱原子生成新的结构,所以需要对原子点云做置换、旋转等变换。传统的图神经网络无法很好处理这类具有等变对称性质的特征,因而提出的一类改进后用于处理等变性质的图神经网络就被称为等变图神经网络。

DiffSBDD

结合以上两种模型,就得到了文章中所设计的 DiffSBDD,DiffSBDD 具有两种分子生成方式:

  1. 蛋白口袋条件分子生成(Conditional generation)
  2. 通过联合分布实现分子生成(Inpainting)

n

Conditional generation

在 conditional generation 模式中,给模型的每个去噪声过程都指定了相同的蛋白口袋,简单来讲,就是在分子生成过程中,原子点云会不断发生置换、旋转等变换,而蛋白口袋不发生变化,使配体分子去「适配」蛋白口袋。

Inpainting

而在 inpainting 模式中,需要首先训练一个无指定条件的 DDPM 用于拟合配体分子与蛋白口袋的联合概率分布 \(p(\boldsymbol{z}^{(L)}_\mathrm{data},\boldsymbol{z}^{(P)}_\mathrm{data})\),该概率分布的主要用于从噪声数据中得到配合的配体分子与蛋白口袋对。

在预测过程中,首先将加噪声后的样本 \([\boldsymbol{z}^{(L)}_t,\boldsymbol{z}^{(P)}_t]\) 中的蛋白口袋掩盖掉,将得到其中的配体部分与加噪声后的蛋白口袋重新组合为 \([\boldsymbol{z}^{(L)}_t,\boldsymbol{z}^{(P')}_t]\),最后用已训练得到的联合概率分布 DDPM 为该组合去噪声,即生成目标分子。

数据

文章分别使用了 CrossDocked 中 10 万个蛋白-配体对和 Binding MOAD 中 40354 个蛋白-配体对作为模型的数据集。

结果与讨论

n

首先文章对生成分子进行了评估,可以看出不管使用哪一个数据集训练模型、使用哪一个模式生成分子,最终结果中只有很小一部分生成的分子不合法,生成分子中大部分都满足新颖、合法的要求。

n

接着文章将分子生成结果与目前在基于结构的药物设计上表现最好的 3D-SBDD 和 Pocaket2Mol 两种模型比较。从表中的数据可以看出,在 Vina Score 上,DiffSBDD 与另外两种模型都比较接近,也就是模型都识别到了配体与蛋白口袋间的相互作用,生成了具有亲合力的分子。DiffSBDD 在 QED、Lipinski 这些分子性质上并没有实现优化,而是与测试集保持相似。其中,DiffSBDD 在 SA 上显著低于其他两种模型,文章认为 SA 在一定程度上并不能反映分子真实的合成难度,低 SA 反而说明 DiffSBDD 能够探索更大的化学空间,因此具有最高的 Diversity。最后,DiffSBDD 所需的计算时间远远少于另外两种模型,相比之下更加高效。

文章展示了针对靶点 2jjg 和 3kc1 生成的分子,其中为 3kc1 生成的第二个分子具有三环结构,该分子也曾在传统的基于结构的药物设计中被设计出来,说明 DiffSBDD 具有应用潜力。在生成的许多分子,还可以找到大环、三元环化合物,这些分子很难合成,所以 DiffSBDD 可能还需要考虑分子的可合成性。

n

结论

文章中所提出的 DiffSBDD 首次将等变扩散模型应用于基于结构的药物设计领域,实验证明了 DiffSBDD 在完成分子生成任务上不仅高效而且有效,能够针对给定的靶点生成多样且具有高亲合力的配体分子,该模型不需要再训练就可以直接应用于先导化合物优化等药物设计实践。