文献总结｜从头药物设计和生成模型

doi.org/10.1016/j.drudis.2021.05.019

本文介绍于 2021 年发表在 Drug Discovery Today 上的一篇综述，文章原标题为 De novo molecular design and generative models，文章综述了分子生成模型在药物分子设计中的应用，特别介绍了用于从头药物设计的不同分子生成方法以及未来的前景。

引言

传统的虚拟筛选方法是对已经获得到化学分子进行评估，确定具有活性的分子。而分子生成的目标与此不同，分子生成是需要在从头药物设计中生成用于虚拟筛选的化学结构。

在化学空间中分散着大量的目标分子，分子生成模型需要利用算法通过化学空间，在具有最优目标特征的目标化学空间上生成需要的化学结构。由于在化学空间中具有许多目标化学空间，分子生成模型的一个关键问题就是如何去平衡探索更多化学空间而生成更多新分子和利用已有的局部最优化学空间。

评估指标

分子生成模型常常使用优化分子的特定性质作为生成任务的目标，例如优化分子的类药性（QED）和脂水分配系数等，但这样的指标不能用于全面评估分子生成的结果。针对于分子生成任务，目前有两种标准的评估指标：

Molecular Sets（MOSES）评估：用于评估生成分子的分布以及合法性、独特性、分子片段多样性等，可以用于将生成分子的化学空间与已知化学空间进行对比，适用于多种分子生成任务；
GuacaMol 评估：除了具有针对生成分子分布的评估，还可以用于评估目标导向的分子生成任务。

分子描述与生成

分子生成任务中的分子通常可以以 SMILES 和基于图的表示两种类型方式描述。SMILES 将分子描述为文本序列，虽然有利于使用自然语言处理中的许多方法进行处理，但将分子转化为文本序列时丢失了许多几何信息，而且使用 SMILES 数据训练模型时，生成模型还学习到了 SMILES 语法和语义这一类信息，而没有学习到更为基本的分子结构信息。基于图的分子描述形式在本质上更接近分子的化学结构，但处理这种描述形式的分子需要更大算法且处理方法有限。

除上述分子描述形式的不同，分子生成的方法还可以细分为基于原子、基于片段和基于反应三种形式。

基于原子

基于原子的生成方法逐个原子生成分子，除了 SMILES 语法等约束以外几乎没有额外的分子知识，是一种较为简单的分子生成方法。

例如在遗传算法中，可以交叉两种分子中的若干个原子生成新分子。或是在 RNN 中，通过模型训练过程中学习到的权重，指定原子后得到后续原子，再将后续原子作为输入，直至生成整个分子。由于这种方法是通过学习隐藏的特征生成分子，随机性很大，常常会使用强化学习的方法使生成分子更有专一性。

基于片段

使用一定的规则将分子分割为分子片段，基于片段的分子生成将分子视作片段的集合，这种方法在探索化学空间时利用了分子片段的约束，能够更好地保留训练数据中的子结构。

例如在遗传算法或 RNN 模型中，模型生成分子的原理没有改变，但遗传算法在交叉两种分子时交叉的是属于某片段的若干原子，RNN 模型除了具有基于原子方法中的权重以外，还学习到了通过片段结构组织若干原子的权重，在获取分子特征上更具优势。

基于反应

基于反应的分子生成是一种基于规则的方法，基于数据库数据或是使用逆合成模型，将分子拆分为化学反应片段，将其作为训练数据。

在分子生成过程中，模型以不具有目标分子性质但可获得的反应物为原料，通过多步的化学反应最终得到目标分子。这种模型通常使用强化学习的方法，实现目标优化，在分子可合成性的表现很好。但这种模型的一大缺陷在于需要人工制定反应模版，这大大限制了其应用。

挑战与前景

药物化学中常用的设计策略是固定分子的特定结构不变，对分子结构进行改造，这有利于研究分子的构效关系，这种设计策略在分子生成任务中可以理解为在局部最优化学空间附近进行探索。

在分子生成中实现这种分子改造，目前采取的两种思路是基于分子的知识改造分子和生成大量分子后过滤掉具有非目标结构的分子。相比之下，前一种方式更具有效率而且能生成更符合目标的分子，是目前研究的方向。基于图的分子描述形式能够更直接地学习到所需要的分子知识，文本形式的分子描述需要更好地提取出这种分子知识。

分子生成的结果不能以单一指标衡量，药物分子的设计也不能只考虑单一特征，分子生成通常是多目标优化的任务。但实际中分子生成模型针对于多目标任务的表现并不好，这主要是由于针对这种多目标优化任务与药物成药性还有一定偏差。所以尽管有些模型在数值上表现更好，但无法真正用于药物设计，研究新的评估指标是解决这一问题的重要方向。

文章还提出了以下几个未来重要研究方向：

继续改进目前的模型，通过算法上的改进提高生成目标分子的成功率；
发展专门的生成模型，例如针对于 3D 蛋白结合位点 3D 空间匹配的模型；
研究可解释性的模型，用于分子生成的深度学习模型仍被视为黑箱，药物化学家需要通过可解释性模型给出的知识指导药物设计。