doi.org/10.1186/s13321-021-00497-0
本文介绍于 2021 年发表在 Journal of Cheminformatics 上的一篇文章,文章原标题为 Molecular optimization by capturing chemist’s intuition using deep neural networks,文章使用通过 MMP 算法生成的分子对数据和分子性质数据训练了 Transformer 和 seq2seq 等模型,这些模型能够通过结构改造得到具有目标性质的分子。
方法
训练数据
分子使用 SMILES 编码,原始分子的数据来自 ChEMBL,使用 MMP 算法对原始分子做化学改造,得到改造后的分子,也是训练模型时的目标分子,使用分子性质预测模型计算原始分子与目标分子的 LogD、溶解度以及 ADMET 性质。根据化学改造前后分子性质的变化,在原始分子前加上相应的性质标记,处理得到的两个分子构成一对 source-target 分子,作为训练集。
模型
文章中所使用的 Transformer 和 seq2seq 都是在机器翻译领域取得了优异成绩的模型,机器翻译的任务中,需要将一段文本转换为另一段文本,将其应用在分子优化中,就是将原始分子序列优化为目标分子序列的任务视作为机器翻译,让模型找到原始分子与目标分子间的关系。
将 MMP 处理得到的分子对记作 \(\{X,Y,Z\}\),其中 \(X\) 表示原始分子,\(Y\) 表示目标分子,\(Z\) 表示从 \(X\) 到 \(Y\) 发生的性质改变,模型的训练过程就是要建立 \((X,Z)\rightarrow Y\) 的映射。
Transformer 与 seq2seq 两种模型的原理不同,seq2seq 模型具有编码器-解码器的构造,编码器将输入序列编码为变量,解码器通过该变量与前一时刻中的输出一起给出当前输出,直至序列结束,完成翻译过程,编码器-解码器的内部使用 RNN 实现。由于 RNN 结构的长期依赖问题,seq2seq 在处理长文本序列时能力有限。Transformer 也具有编码器-解码器的构造,但 Transformer 没有使用 RNN 并引入了 self-attention 机制,具有比 seq2seq 更强的文本处理能力。
评估指标
目标 1:评估模型是否对指定的三个分子性质进行了优化
考虑到性质预测模型的误差,三个性质都在以下范围内的分子视为完成了性质优化:
- \(|\log D_\mathrm{generated}-\log D_\mathrm{target}|\leq 0.4\)
- \(\mathrm{solubility_{low}}\leq 2.3\ \mathrm{or}\ \mathrm{solubility_{high}}\geq 1.1\)
- \(\mathrm{clearance}=1.3\pm0.35\)
目标 2:评估模型是否基于 MMP 对分子做了化学改造
使用 MMP 分析生成分子,检查分子结构是否符合要求。
为了评估模型生成分子的效果,文章制作了以下三个测试集:
- Test-Original:从数据集中取出 10% 作为该测试集,但其中所有组合 \((X,Z)\) 都未在训练集中出现过。
- Test-Molecule:Test-Origina 的子集,其中所有数据的分子都未在训练集中出现过,即 \(\{(X,Z)_\mathrm{test}|X\notin \mathcal{X}_\mathrm{train}\}\)。
- Test-Property:由 Test-Original 中具有特定性质要求的组合构成,性质要求为
LogD_change_=(-1.1,-0.9]
、Solubility_low→high
和CLint_high→low
。
结果
使用三种测试集在不同模型上生成分子的结果如上图所示,首先可以看出,仅使用 MMP 算法对分子进行改造,也能得到一定数量具有目标特征的分子,说明 MMP 算法能够较好处理分子优化的问题,但 MMP 仅是对测试分子做没有方向性的、随机的改造,所以在生成分子的结果中,MMP 算法得到满足要求的分子也最少。
相比 MMP 算法,深度学习模型 HierG2G、seq2seq 和 Transformer 具有更好的效果,生成了更多满足要求的分子。其中 seq2seq 和 Transformer 具有比较接近的结果,且表现都优于 HierG2G,这可能是由于 HierG2G 是一种基于图的模型,对于「序列到序列」这一类型的任务表现不如专门用于文本处理的 seq2seq 和 Transformer。
统计各个模型生成的分子,在满足目标性质与基于 MMP 对分子进行改造两方面的目标上,Transformer 生成分子中满足要求的分子都在高于另外两种模型,更好地完成了分子优化任务。
考察训练集与使用不同测试集通过 Transformer 生成分子集中分子对之间的化学改造方式,上图展示了出现频率最高的 20 种改造方式。可以看出,在训练集、从 Test-Original 和 Test-Molecule 生成的分子集中,出现频率较高的几种分子改造方式都比较接近,这可以说明 Transformer 从训练集中学习到了 MMP 改造方式并将其应用于测试集从而生成分子。
Test-Property 中的分子改造方式与其他三种数据集中的方式差别较大,这是因为 Test-Property 数据集指定了特定的性质优化要求,在给定的性质单一优化方向下,Transformer 在学习到的 MMP 改造方式中选择最合适的方式,使生成分子的性质符合目标要求。这种工作方式与化学家改造分子的方式类似。
文章中使用模型所生成的分子如下图所示:
结论
文章使用 MMP 算法构建分子对数据集,MMP 算法模拟了现实中对单键切断并替换官能团的分子改造方式,因此可以训练得到与现实相似的分子改造模型。文章还考虑了分子改造的性质变化,现实中的分子改造大多是为了获得特定的性质,因此在结合了分子改造与性质变化后,文章构造了一种能够针对目标性质进行结构优化的模型,类似于现实中化学家对分子的优化。在试验的多种模型中,Transformer 获得了最佳的效果。但模型仍有许多改善的空间,例如只能对单点进行结构改造,能够指定的分子性质约束太少等等。