文献总结｜DRlinker：使用深度强化学习优化连接片段设计

doi.org/10.1021/acs.jcim.2c00982

本文介绍于 2022 年发表在 Journal of Chemical Information and Modeling 上的一篇文章，文章原标题为 DRlinker: Deep Reinforcement Learning for Optimization in Fragment Linking Design，文章是对 SyntaLinker 的改进，在原有结构的基础上引入了强化学习策略，使模型在完成分子连接的任务以外，还能使模型根据设定的任务生成满足约束的新分子。

方法

模型

文章从 SyntaLinker 分子连接模型受到启发，同样使用了强大的 Transformer 模型，但与之不同的是 DRlinker 还引入了强化学习的策略。使用 ChEMBL 数据训练 Transformer，得到先验模型，先验模型能够根据输入的分子片段给出新分子。接着引入基于策略的强化学习，通过打分函数等优化方法训练先验模型，得到代理模型。

也就是说，代理模型与先验模型具有相同的结构，先验模型首先初始化了代理模型，接着代理模型的强化学习策略使其输出满足打分函数的约束，所以最终的模型可以根据输入的分子片段给出满足指定约束的新分子。

数据

由于 DRlinker 是对 SyntaLinker 的改进，所使用的数据也与 SyntaLinker 一致，数据都来源于 ChEMBL 数据库，处据处理方法也一致。从 ChEMBL 数据库得到的分子数据首先使用 Lipinski 五规则、假阳性化合物和 SA 分数等标准过滤掉其中不具有类药性的分子，接着使用 MMP 算法将分子切分为片段。

训练方法也与 SyntaLinker 一致，将切分的分子片段组合为「片段 1，连接部分，片段 2，分子」的四部分数据，令 Transformer 模型完成将「片段 1，片段 2」转为分「分子」的 seq2seq 任务。

打分函数

DRlinker 输出满足约束的新分子并完成不同任务是通过指定不同的打分函数决定的，打分函数决定了模型中强化学习过程中训练的方向，指产生的分子偏向于目标分子。

为了评估 DRlinker 完成不同任务的表现，文章中使用了以下几个打分函数：

连接部分长度

$$\begin{equation} \mathcal{R}(m)_\mathrm{LinkerLen}= \begin{cases} \max\left(0,1-\frac{1}{a}|\mathrm{LinkerLen}(m)-\mathrm{Target}|\right)&,\ \mathrm{if\ valid}\\ 0&,\ \mathrm{if\ invalid} \end{cases} \end{equation}$$

其中 $\alpha$ 是参数，$m$ 是生成的分子。

log P

$$\begin{equation} \mathcal{R}(m)_{\log P}= \begin{cases} \max\left(0,1-\frac{1}{a}|\log P(m)-\mathrm{Target}|\right)&,\ \mathrm{if\ valid}\\ 0&,\ \mathrm{if\ invalid} \end{cases} \end{equation}$$

生物活性

$$\begin{equation} \mathcal{R}(m)_\mathrm{activity}= \begin{cases} P_\mathrm{active}(m)&,\ \mathrm{if\ valid}\\ 0&,\ \mathrm{if\ invalid} \end{cases} \end{equation}$$

$P_\mathrm{active}$ 是 JAK3 活性的活性预测模型，通过随机森林预测分子活性。

多目标约束

$$\begin{equation} \mathcal{R}(m)_\mathrm{QED\&SA}= \begin{cases} \max(0,\mathrm{QED}(m)-0.1\times\mathrm{SA}(m))&,\ \mathrm{if\ valid}\\ 0&,\ \mathrm{if\ invalid} \end{cases} \end{equation}$$

多目标约束用于评估模型针对多个目标进行优化时的表现。

结果

连接部分长度

指定模型生成连接部分长度为 5 和 10 的新分子，结果为 subplot a，可以看出与 SyntaLinker 和 DeLinker 相比，DRLinker 生成的分子分布更加集中在 5 和 10，DRLinker 能够更加准确地生成目标分子。这是由于 SyntaLinker 不具有强化学习策略，是通过在训练数据连接部分长度为 5 的分子中添加例如 L_5 的前缀标记，利用 Transformer 的自注意力机制分配权重，使生成分子连接部分的长度与 L_n 的前缀标记相关。使用这种方法虽然能使分子大致符合目标，但显然是不能使分子准确满足目标。

log P

指定模型分别生成 $\log P$ 为 1、2 和 3 的分子，分子分布为 subplot b，可以从先验模型生成分子到代理模型生成分子的分布中看出，经过强化学习，模型生成分子能够满足约束，集中在任务指定的 $\log P$ 附近。subplot c 列举了模型生成的分子，也可以看出，随着目标 $\log P$ 增大，生成分子的连接部分具有更多的芳香基团等疏水基团。

生物活性与多目标约束

使用活性预测模型的预测活性作为打分函数，可以指定生成活性较高的新分子，使用 RDKit 的评估指标分析生成分子，可以看出在生成的分子在满足合法性、新颖性等要求的同时，相对于 SyntaLinker 活性还有所提升（Impv）。

此外还可以使用优化 QED 和 SA 两种目标的打分函数，生成分子的 QED 与 SA 都有相应的提高，达到了使生成分子满足多目标约束的目的。

以上两种应用都不是通过指定要求的目标生成分子，而是指定了优化目标，可以理解为一种优化分子结构的方式，这是 SyntaLinker 所不具有的功能。

总结

DRlinker 在 SyntaLinker 的基础上引入了强化学习策略，使模型能够根据脂定的打分函数生成满足目标约束的分子，从实验结果来看，模型不仅能够使生成的分子满足单一目标，还能满足多目标的约束。但强化学习的策略也存在一定问题，例如必须要根据目标构造打分函数，打分函数不同也会造成结果不同，打分函数没有严格的标准而经验成分较多等等。