文献总结｜从头药物设计中的深度学习方法

本文主要介绍来自浙江大学的 Mingyang Wang 等人的综述，综述名称为 Deep learning approaches for de novo drug design: An overview，发表在 Current Opinion in Structural Biology 上。文章主要介绍了深度学习技术在从头药物设计领域的应用与分子生成方法，同时还指出了深度学习技术在药物设计方面目前所面临的问题。

doi.org/10.1016/j.sbi.2021.10.001

引言

从头药物设计（分子生成）的主要目标是从现有的化合物库中生成新颖且具有指定特征的分子。与虚拟筛选相比，虚拟筛选通过多种筛选方法不断缩小化合物范围，最终获得目标分子，而基于深度学习的生成模型则是通过总结和提取现有分子的特征，然后将其转换成新颖的化合物。

分子描述与生成模型评价指标

分子描述

数据集和生成算法都会影响生成模型的预测性能，除此之外，模型的预测性能很大程度上也依赖于如何将配体和蛋白-配体复合物描述成合适的形式并用于特征用学习。

常见的分子描述形式包括

简化分子线性输入规范（Simplified Molecular-Input Line-Entry System, SMILES）；
分子指纹；
分子概念图（Molecular Conceptual Diagram, MCD）。

SMILES

SMILES 是计算化学领域通用的分子表达形式，也经常被用于分子生成模型中。但 SMILES 也存在着一定问题，例如同一个分子可以表达成多种不同的 SMILES 序列，这就会影响分子生成多样性。

MCD

MCD 将分子转化成 2D 或 3D 的图，例如 2D 形式的概率全连接图：原子作为结点，键作为边，点与边通过邻接矩阵完全相连，3D MCD 则将输入数据转化为图像或矩阵。

模型评价指标

模型评价指标也可以粗略分为 3 类：

针对整个生成分子集的评价指标；
针对生成分子集中单个分子的评价指标；
针对生成模型的整体评价指标。

针对整个生成分子集的评价指标

合理性（Validity）：生成分子集中合理有效分子的占比。
新颖性（Novelty）：存在于生成分子集中，而不存在于现有分子集中的分子比例。
独特性（Uniqueness）：生成分子集中合理且非重复分子的占比。
Frag：生成分子集与现有分子集中化学片段的相似程度。
Scaff：生成分子集与现有分子集中化学骨架的相似程度。
SNN：生成分子集与现有分子集中最相似分子的平均谷本系数。
Div：生成分子集中的分子多样性。
FCD：生成分子集与现有分子集中分子生物活性的差别。

针对生成分子集中单个分子的评价指标

分子的物理化学性质。
SA：用 1-10 来评价分子的合成复杂程度。
NP：用 0-5 表示天然产物，-5-0 表示合成产物。
QED：成为候选药物的可能性。

针对生成模型的整体评价工具

一些整体评价工具套件常用于评价整体的生成模型，这些工具大多集成了内置的指标，常用的工具包括 MOSES 与 GuacaMol。

分子生成中最新的深度学习框架

（a）VAE 生成模型使用包括编码器 q(z|x) 与解码器 (x|z) 的分子通过最大化 LB（下界）训练模型；（b）RNN 模型通过最大化合理分子字符序列组合的概率 (y1y2…yt) 生成分子；（c）GAN 模型中，鉴别器 D 否决生成器 G（D(x)→0, D(G(z))→0），而生成器要生成更“真实”的分子来欺骗鉴别器（D(G(z))→1)）;（d）RL 框架使用预测器来奖励生成器的每个状态 s，最大化末了状态 S 的总分 R；（e）不同的分子描述形式。

基于 Enc-Dec 的模型

Enc-Dec 是一种无监督学习的模型，编码器将分子映射成潜在空间中的向量，解码器将概率分布映射回原始空间，基于 Enc-Dec 的模型就通过在潜在空间中抽样来生成分子。最早基于 Enc-Dec 的模型属于变分自编码器（Variational Autoencoder, VAE），后来又产生了许多种变种。

基于 RNN、RL 和 GAN 的模型

与基于 Enc-Dec 的模型不同，基于循环神经网络（Recurrent Neural Network, RNN）、强化学习（Reinforcement Learning, RL）和生成对抗网络（Generative Adversarial Network, GAN）的模型向着预先设定的特征生成分子。

基于 RNN 的模型能够通过逐层的神经网络生成具有最高概率的分子排布形式，为了解决梯度下降等问题，还向 RNN 层中引入了长短期记忆和门循环单元算法。转移学习（Transfer Learning, TL）通过转移从相关任务中的知识来提升对新任务的学习效果。在基于 RNN 的模型中，TL 通常就是指在针对某特定靶点的任务中使用一些具有活性的化合物来再训练生成模型，这种 RNN 与 TL 的结合已经有许多成功案例。相比其他算法，RNN 具有的优势包括能够生成无限长度的分子和模型训练的操作简单。

GAN 的基本原理是生成器与鉴别器之间的二人零和博弈，鉴别器尝试鉴别出生成分子中的真阳性分子，而生成器尝试在噪声中生成分子并欺骗鉴别器。GAN 常与其他深度学习框架结合，共同完成药物设计任务，例如在训练过程中可以将 GAN 鉴别器与 RL 奖励系统结合，为生成分子打分。

DL 更多作为深度学习模型的一种优化策略，DL 使用奖励函数为行要打分，打分结果就决定了下一阶段的行为。在分子生成模型中，生成器通过某些方式生成分子，然后内置的 QSAR 预测器就会评估生成分子的质量（奖励还是惩罚），评估过程的目的就是增强生成分子的人为预设特征。

未来展望

分子描述仍然是分子生成模型中的关键问题，不同于文本或图像能够直接使用计算机处理，针对于不同的任务，具有多种多样的分子描述形式，根本原因还是在于仍没有完美的分子表述形式，所以针对于不同算法和任务，必须选取合适的描述方式。分子描述还具有一个容错率的问题，例如文本中某些词语和图像中某些像素若具有错误，不会被鉴别器完全否定，而在分子生成模型中，只要一个原子存在错误，就可能生成不合理的分子。

在各种分子生成模型中，假阳性也是一个不能忽视的问题。湿实验当然是评估生成分子质量的最直接方法，但生成分子的数量如此之大，这种方法也是不可行的。目前在机器学习领域仍然缺少评估生成分子质量的标准，我们仍需要评估模型与生成分子质量的普适标准。

目前方法学的研究还是集中于优化深度学习框架的算法，实际应用的研究远少于方法学研究，许多开源工具也集中于新算法的优化而不是针对特定靶点的药物设计。因此，目前迫切需要一种集成了多种分子生成算法的平台，并将其用于药物设计。

在深度学习展现出广阔前景的同时，传统算法并未过时，例如传统的遗传算法在分子生成模型中也能得到可观的结果。在深度学习在其他领域迈步向前的同时，在药物设计邻域才初具雏形，因此其他邻域的应用可能也能为药物设计与发现提供有价值的导向。