doi.org/10.1186/s13321-020-00441-8
本文介绍于 2020 年发表在 Journal of Cheminformatics 上的一篇文章,文章原标题为 SMILES‑based deep generative scaffold decorator for de‑novo drug design,文章通过 MMP 算法得到训练数据,基于 RNN 模型构建了能对分子骨架进行改造的生成模型,模型能够生成具有指定改造位点的分子骨架,并使用分子片段对其改造从而得到新分子。
引言
对先导化合物进行结构优化是药物设计中的重要步骤,利用深度学习手段对分子结构进行改造能够大大提升药物设计的效率。以往提出的结构改造模型有基于 SMILES 的双向 RNN 模型,其问题在于只能连接分子中的两个指定位点,也有基于图的深度模型,但需要消耗大量的计算资源和训练时间。
文章提出了一种用于分子结构改造的深度生成模型,首先由 RNN 模型生成分子骨架,再由改造模型在分子骨架中的改造位点上进行合适的改造,生成新的分子。
方法
模型
文章提出的模型主要由分子骨架生成模型与分子骨架改造模型两部分构成。分子骨架生成模型是基于 RNN 的模型,使用 MMP 算法将分子的 SMILES 分割为分子片段并将其作为训练数据,分子骨架生成模型就能够生成具有结构改造位点标记 [*]
的分子骨架。
分子改造模型也是 RNN 模型,但具有注意力机制的编码器-解码器架构,编码器-解码器架构主要用于处理 seq2seq 任务,在这里,编码器-解码器将具有结构改造位点标记的分子骨架转化为用于结构改造的取代基。
使用该模型对分子进行结构改造的主要流程如上图所示,首先手动输入或由模型生成带有改造位点的分子骨架,接着再由改造模型进行改造。改造模型具有两种模式,一种是一步模式,另一种是多步模式。在多步模式中,通过多步骤完成分子的改造,先将分子结构转化为改造基团,再将改造基团连入分子结构,然后再次将分子结构送入改造模型,直至所有改造位点完成改造。单步模式中,模型将分子结构转化为多个改造基团,以分隔符 |
区分,将多个改造基团全部连入分子,一次性完成改造。
文章设定了两个实验用于测试模型的表现:
- 实验 1:使用 DRD2 受体调节剂数据训练结构改造模型,用活性预测模型确定模型输出活性分子的数量;
- 实验 2:使用类药分子作为训练数据,测试模型表现。
数据预处理
实验 1 所使用的数据是 DRD2 受体调节剂数据,来自于 ExCAPE-DB,使用 MMP 算法将分子分割为分子骨架与改造基团。
实验 2 使用的数据是 ChEMBL 中的类药分子,同样使用 MMP 算法,但在分割的同时增加了 RECAP 规则的约束,RECAP 规则能让分子骨架与改造基团的分割更符合化学合成的规则。
在训练集中随机选择了 5 个分子骨架(1-5),并将其从训练集中去除,将这 5 个分子骨架相关的分子片段数据作为验证集。
在骨架生成模型生成的数据中选择 5 个未出现在数据集中的不同分子骨架(6-10)作为改造模型的输入。
结果
实验 1
使用 1-10 分子骨架作为输入的生成分子结果如上图所示。从 subplot a 可以看出,分子骨架不同,所产生的结构改造数量也不同,这种不同不是由结构改造位点数量导致的,而且在单步模式下具有更多的结构改造。在 subplot c 和 d 中可以看出,在不同结构上生成结构改造的新颖性不同,这主要是由于模型对每个结构改造位点上所具有知识的不同,此外在生成新颖性的结构中,也有相当一部分分子具有预测活性,表明模型在进行结构改造的同时依然具有 DRD2 的知识,模型能够基于 SMILES 语境做出结构改造。
尽管单步模式能够针对分子骨架产生更多的结构改造,但多步模型产生的所有分子中的活性分子占比更高,因此多模型在对分子进行结构改造上具有更好的表现。可以认为这是因为多步改造能够更好地利用训练数据中的知识,例如单步模式下,模型只会运用到对多个改造位点进行改造的知识,而在多模式下,模型会逐次运用到对三个、两个、一点改造位点改造的数据,使得生成的分子更能满足 DRD2 受体的活性要求。
实验 2
实验 2 生成新分子的结果如图所示,其中上图为多步模式,下图为单步模式,non-dataset scaff. 表示分子具有未出现在数据集中的新骨架(6-10),val. set scaff. 表示分子具有训练集中的骨架(1-5)。
可以看出,在多步模式下,尽管输入了不同的分子骨架,结构改造后新分子的性质仍然能和训练集保持一致,表现了模式良好的泛化能力,能够用于生成类药分子。而在单步模式下,模型利用的知识受限,生成新分子的性质偏离了训练数据。
结论
文章基于 RNN 构建了一种新的分子改造模型,没有使用额外的深度学习方法,仅由 RNN 的分子骨架生成模型与 RNN 编码器-解码器的分子改造模型构成。通过 MMP 算法处理分子的 SMILES 数据后,即可用于该模型的训练,该模型能够基于 SMILES 语境进行合适的分子改造。该模型的结构较为简单,还有进一步改进的空间。