文献总结|通过生成深度学习发现 RIPK1 抑制剂

Category 碎碎念

doi.org/10.1038/s41467-022-34692-w

本文介绍于 2022 年发表在 Nature Communications 上的一篇文章,文章原标题为 Generative deep learning enables the discovery of a potent and selective RIPK1 inhibitor,文章通过构建 RNN 模型,使用迁移学习、正则化强化和取样强化三种策略针对 RIPK1 靶点生成化合物,并从中得到了潜在的 RIPK1 抑制剂。

引言

包括 RNN 在内的许多深度生成模型在生成分子方而都有很好的表现,但大部分模型的作用都是生成满足预定目标的最可能分子(基于目标)。基于 目标的模型依赖于目标函数,就很可能生成更符合目标函数(数值上更优)而实际不可用的分子,因此还需要大量的湿实验验证。

为了避免这一问题,文章构造了基于分布的 cRNN 模型,基于分布的模型能够生成与训练集化学分布相同的新分子,从而避免目标函数的影响。

方法

n

文章中的模型基于分布学习的 cRNN 架构,并且使用了 LSTM 策略。此外,文章还在模型中引入了三种策略用于增强模型对特定靶点(PIPK1)的针对性:迁移学习、正则化强化和取样强化。

迁移学习

首先使用包含约 1600 万分子的 ZINC12 数据库(源数据)预训练模型,再使用 1030 个已知的 RIPK1 抑制剂(目标数据) fine-tune 模型,这一过程就是迁移学习。

从测试结果(subplot c)可以看出,使用迁移学习策略后,模型不仅重构出了源数据中的分子,也重构出了目标数据中的分子,具有更好的泛化能力。

正则化强化

正则化强化是为了提升模型的生成能力,主要操作就是在模型训练过程中的状态向量引入高斯噪声,可以表示为

$$h^\mathrm{noise}_0=h_0+\varepsilon,\ \varepsilon_m\in\mathcal{N}(\mu,\sigma^2)$$

从测试结果(subplot d)可以看出,使用正则化强化后,模型生成分子的能力得到提升。

取样强化

在模型生成分子的过程中,是通过对状态向量取样,从而在潜在的化学空间中得到新分子。因此在对状态向量取样的过程中引入强化策略,也能提升模型表现。取样强化的策略包括单点取样、线性插值取样、球面插值取样三种方法,可以分别表示为

$$h^i_{0,\mathrm{new}}=\mathrm{Sample}(h^i_0)=h^i_0+\varepsilon_s,\ \varepsilon_s\in\mathcal{N}(\mu,\sigma^2)$$
$$h^{ij,\alpha}_{0,\mathrm{new}}=\mathrm{Linear}(h^i_0,h^j_0;\alpha)=(1-\alpha)h^i_0+\alpha h^j_0,\ \alpha\in(0,1)$$
$$h^{ij,\beta}_{0,\rm{new}}=\mathrm{Slerp}(h^i_0,h^j_0;\beta)=\frac{\sin[(1-\beta)\theta]}{\sin\theta}h^i_0+\frac{\sin(\beta\theta)}{\sin\theta}h^j_0,\ \beta\in(0,1)$$

具体来说,就是在对状态向量取样引入临近插值点的状态向量影响。

结果

n

使用模型得到 79323 个分子,通过 UMAP 数据降维展示了分子在化学空间的分布(subplot a),其中蓝色为生成分子,红色为源数据,紫色为目标数据,可以看出生成分子的化学空间不仅包含了源数据空间,而且有包含目标分子空间的趋势,这主要由于模型的迁移学习过程。

对生成分子的理化性质进行评估,可以发现在四种性质指标上,生成分子与源数据和目标分子都十分接近,可以认为模型同时学习到了两种数据集的特征。

以独特骨架/总骨架分析生成分子的分子骨架多样性,生成分子的 26.4% 显著高于源数据(1.2%)与目标分子(14.1%)。

接下来使用生成的分子进行虚拟对接:

  1. 删去具有相同 Murcko 骨架或与已知 RIPK1 抑制剂具有相同骨架的分子;
  2. 使用 RDKit 计算分子类药性,删去低于阈值的分子;
  3. 使用 RIPK1 进行药效团模型,保留具有要求药效团的分子;
  4. 基于 RECAP 绘制分子结果相似性与对接分数的树状图。

n

在树状图中选择局部对接打分最后的分子,经过合成性评估,选择其中 8 个分子进行后续合成与药理学实验,最终确定 RI-962 为潜在的 RIPK 抑制剂。

讨论

文章中使用的分子生成模型是基于 cRNN 的模型,cRNN 通过学习训练集中分子的潜在特征从而生成新分子,不通过人为指定分子生成的目标,这种基于分布的分子生成方法减少了基于目标分子生成方法由于目标函数所导致的不准确性。

基于分布的分子生成方法是一种数据驱动的深度学习方法,所以模型需要大量数据用于训练,而在现实中,目标分子的数据集一般较小。文章使用了迁移学习的方法,先使用较大的 ZINC12 数据集训练,再使用较小的目标分子集 fine-tune 模型,得到了很好的效果。

文章在模型中还使用了正则化强化和取样强化的策略,都提升了 cRNN 模型的表现。此外,文章建立了「分子生成-虚拟筛选-化学合成-药理试验」的药物发现全过程流程,最终得到了潜在的 RIPK 抑制剂 RI-962。