文献总结｜LibINVENT：可用于虚拟化合物库构建的基于反应的分子骨架改造模型

doi.org/10.1021/acs.jcim.1c00469

本文介绍于 2022 年发表在 Journal of Chemical Information and Modeling 上的一篇文章，文章原标题为 LibINVENT: Reaction-based Generative Scaffold Decoration for in Silico Library Design，文章基于 RNN 与 RL 构建了能够对分子进行结构改造的模型，模型在经过分子片段数据的训练后，模型能够在分子相应改造位点上连接不同化学结构，是构建虚拟化合物库的有利工具。

引言

先导化合物优化的目的是优化掉那些阻止化合物成药的特征的同时，保留下化合物中符合预期的特征。由于预期活性常常与特定的分子骨架相关，可以把这种任务归结为保留特定的分子骨架，同时改变其他特定部分，最终使化合物满足成为候选药物的多种要求，该任务可以通过筛选具有相同母核的专一化合物库完成。

化合物库是具有一系列分子的集合，文章对其中的分子具有两个要求：

针对一个或多个分子骨架，所有分子都包含该子结构；
所有分子都能通过一连串相同的化学合成转化得到。

第2个条件能够减少了合成中反应试剂与反应条件的数量，更适用于化合物的自动化设计与合成，能够提高在先导化合物优化方面的生产效率。

文章设计了一种基于 REINVENT 的模型完成构建该化合物库的任务，模型能够使用相应的化学反对具有结构改造连接位点的输入骨架进行改造，这种生成化合物库的方法能够让用户在很大程度上控制模型的输出，生成实际上更加合理的分子。

方法

数据处理

化合物数据可以从公开数据库ChEMBL获取，数据库中的分子都以SMILES序列的形式描述，化合物数据主要用于训练先验模型。

首先清理数据，从数据集中移除非目标的化合物，例如分子量过大、过小的分子和具有不常见 SMILES 标记的数据。接着要对分子数据进行分割，以往的规则，例如 RECAP 规则，是对化合物中单键进行分割，但这样的分割并不能满足通过化学反应切分的要求。文章使用了 Arús-Pous 等提出的数据预处理方法，该方法通过 27 条基于反应的规则分割分子，满足了要求。

模型训练

先验模型使用分割分子的 SMILES 数据集训练，训练先验模型的目的是使其学会 SMILES 序列的语义从而生成合法的 SMILES 结果。由于先验模型不针对于具有任务，所以只需要训练一次。

为了将模型用于具体任务，需要将先验模型转化为专一的先验模型，使用的具体策略是 RL。在 RL 循环中，先验模型不断给出化合物，同时根据它的输出，先验模型接收到特定任务的奖惩。在RL运行过程中，所有高分化合物都保存到虚拟化合物库中，就是最后的结果数据。

RL 过程中还引入了多样性过滤器（diversity filter, DF）与反应过滤器（reaction filter, RF），DF 会给予那些重复生成相同分子的 RL 代理模型相应的惩罚，这有助于增加生成分子的多样性。RF 能够保证给出的化合物库中的化合物都能通过选定的化学反应合成，有利于构建反应专一的化合物库。用户也可以设定 RF 中的参数，设定进行结构改造的化学反应。

实验

实验部分的目标是

确定 RL 循环中最优的学习策略；
与使用 RECAP 规则的模型对比，展示模型能够基于反应进行骨架的结构改造；
展示模型对具有各种数量连接位点的骨架进行结构改造的能力。

学习策略

首先使用 QSAR 预测模型与没有 RF 的模型生成分子，结果如上表所示。接着使用QSAR 预测模型与有 RF 的模型生成分子，结果如下表所示。

可以看出 DAP 策略在两种模型中都是最优的策略，表现都超过了其他策略。最终选择 DAP 策略作为后续实验中的策略。引入 RF 的作用可以从下图中看出，在引入 RF 后，更优策略与其他策略的差距明显增大。

分割策略

分别使用 QSAR 预测与 ROCS 3D 相似性评估分子生成模型不同分割策略的结果，一种是基于反应的分割策略，另一种是基于 RECAP 规则的分割策略，实验结果如表如示。不管是哪种打分模型，基于反应的分子分割方式都具有更高的分数，相比 RECAP 规则，基于反应的分割方式更具有优势。

两种打分模型之间，ROCS 的分数要低于 QSAR，这是因为 ROCS 考虑了分子的 3D 特征，而模型很难从 SMILES 输入中学习到分子的 3D 特征。此外，使用 ROCS 模型的生成模型更加稳定，最终生成了更加多样的分子。这是因为简单的 QSAR 预测模型具有较大的约束，有很强的偏向性，将模型引入了更小的化学区域，最终对分子的结构改造较为单一。ROCS 虽然具有较低的分数，但它能让模型同时拥有对目标的指引和探索空间的自由，二者适当的结合使模型获得了更优的结果。

具有多个连接位点的骨架

最后使用具有多个（1~4）连接位点的分子骨架作为输入数据，得到了先前实验类似的结果，说明模型可以对具有不同连接位点的分子骨架进行结构改造。

结论

针对于基于特定目标对分子骨架进行结构优化的任务，文章构造了一种灵活的工具 LibINVENT。它能够快速生成具有可用于先导化合物优化且易于合成的化合物库。RL 策略能够让模型在目标的化学空间生成分子，能够满足多种特定目标。用户还可以灵活地设定任务，指定化学空间中需要目标区域，让模型生成指定的化合物库，这使得 LibINVENT 具有很大的应用前景。