神经网络模型中灾难性遗忘研究的综述

韩纪东; 李玉鑑

doi:10.11936/bjutxb2020120014

神经网络模型中灾难性遗忘研究的综述

韩纪东^1,,
李玉鑑^{1, 2, ,}

1.
北京工业大学信息学部, 北京 100124
2.
桂林电子科技大学人工智能学院, 广西桂林 541004

基金项目:

国家自然科学基金资助项目 61876010

详细信息

作者简介:
韩纪东(1992-), 男, 博士研究生, 主要从事深度学习和计算机视觉方面的研究, E-mail: hanjd@emails.bjut.edu.cn

通讯作者:
李玉鑑(1968-), 男, 教授, 博士生导师, 主要从事模式识别与图像处理、机器学习与数据挖掘、人工智能与自然语言处理方面的研究, E-mail: liyujian@guet.edu.cn

中图分类号: TP389.1
计量
- 文章访问数: 0
- HTML全文浏览量: 0
- PDF下载量: 0
出版历程
- 收稿日期: 2020-12-20
- 网络出版日期: 2022-08-03
- 发布日期: 2021-05-09
- 刊出日期: 2021-05-09

Survey of Catastrophic Forgetting Research in Neural Network Models

HAN Jidong^1,,
LI Yujian^{1, 2, ,}

1.
Faculty of Information Technology, Beijing University of Technology, Beijing 100124, China
2.
School of Artificial Intelligence, Guilin University of Electronic Technology, Guilin 541004, Guangxi, China

摘要

摘要:
近年来，神经网络模型在图像分割、目标识别、自然语言处理等诸多领域都取得了巨大的成功.但是，神经网络模型仍有很多关键性的问题尚未得到解决，其中就包括灾难性遗忘问题.人类在学习新知识后不会对旧知识发生灾难性遗忘，神经网络模型则与之相反.神经网络模型在适应新任务之后，几乎完全忘记之前学习过的任务.为了解决这一问题，很多相应的减缓神经网络模型灾难性遗忘的方法被提出.对这些方法进行了归纳总结，以促进对该问题的进一步研究.主要贡献包括3个方面：对现有的减缓神经网络模型灾难性遗忘的方法进行了详细的介绍，并将不同方法分为4类，即基于样本的方法、基于模型参数的方法、基于知识蒸馏的方法和其他方法.介绍了不同的评估方案，以评估不同方法对减缓神经网络模型灾难性遗忘的效果.对神经网络模型中的灾难性遗忘问题进行了开放性的讨论，并给出了一些研究建议.
- 神经网络模型 /
- 灾难性遗忘 /
- 样例 /
- 模型参数 /
- 知识蒸馏 /
- 增量学习
Abstract:
In recent years, neural network models have achieved great success in some fields, such as image segmentation, object detection, natural language processing (NLP), and so on. However, many key problems of neural network models have not been solved, for example, catastrophic forgetting. Human beings have the ability of continuous learning without catastrophic forgetting, but neural network models do not. Neural network models almost completely forget the previously learned tasks when it adapts to the new task. To solve this problem, many methods have been proposed. This paper summarized these methods to promote further research on this issue. The existing methods of mitigating catastrophic forgetting of neural network models were introduced in detail, and all methods were divided into four categories, namely exemplar-based methods, parameter-based methods, distillation-based methods and other methods. Different evaluation schemes were introduced to evaluate the effect of different methods on alleviating catastrophic forgetting of neural network models. An open discussion on the catastrophic forgetting problem in neural network models was carried out, and some research suggestions were given.
- neural network models /
- catastrophic forgetting /
- exemplar /
- model parameters /
- knowledge distillation /
- incremental learning

HTML全文

近年来，神经网络模型在很多方面已经远远超过人类大脑，如在围棋领域AlphaGo战胜人类顶尖高手^[1-2]，在大规模视觉比赛ImageNet中表现出更强的图像识别能力^[3-4]，在电子游戏中战胜专业顶级游戏玩家^[5-6]. 注意，本文中的神经网络泛指所有的神经网络. 这不仅使得神经网络模型受到广泛的关注，还极大地促进了神经网络模型的进一步发展，使得神经网络模型在更多领域取得了更加不凡的成就，如图像分割^[7-10]、目标检测^[11-13]、自然语言处理^[14-17]、姿态估计^[18-21]等. 神经网络模型的快速发展，并没有使其克服所有缺陷. 神经网络模型依然有很多不足，如灾难性遗忘、广受争议的黑箱子操作等，但是瑕不掩瑜，神经网络在很多方面的惊艳表现使它依然备受学者们的青睐.

一个显而易见的事实是，人类在学习新知识后不会对旧知识发生灾难性遗忘，而这既是神经网络模型的一个重大缺陷，也是它的一个遗憾. 该问题在很久之前就已经引起了学者们的注意. 20世纪八九十年代，连接网络时期，Carpenter等^[22]已经提到了神经网络模型中的灾难性遗忘问题，并且用了一个形象的比喻来说明，一个出生在波士顿的人搬到洛杉矶，他再回到波士顿时，仍然不会忘记他在波士顿的一切；也即他在洛杉矶学会新知识后，仍然会记得之前在波士顿的旧知识，而不会发生灾难性遗忘；McCloskey等^[23]描述了神经网络在序列学习中遇到的灾难性遗忘问题，在文中称该问题为灾难性干扰(catastrophic interference). 注意：当时，神经网络常被称为连接网络. 当时，有很多学者提出了相关的方案试图解决该问题，如有学者认为灾难性遗忘是由于存储在神经网络内部表征重叠造成的，因此使用稀疏向量、输入正交编码等方法来避免神经网络模型中的灾难性遗忘^[24-25]；有学者使用双网络来解决神经网络模型中的灾难性遗忘^[26-27]；也有学者使用伪训练数据预演的方法来减少神经网络模型中的灾难性遗忘^[28].

现在，神经网络模型的参数量已经达到十几亿^[16]、几百亿^[29]，甚至一千多亿^{[17, 30]}；但是神经网络模型中的灾难性遗忘问题依然广泛存在，如卷积神经网络(convolutional neural networks, CNN)^[31-32]、长短期记忆网络(long short-term memory，LSTM)^[33]、生成对抗网络(generative adversarial network，GAN)^[34-35]等. 这是由于同20世纪相比，神经网络模型的思想变化并不大，变化最大的是训练神经网络模型所使用的硬件设备及所使用的数据量. 目前，神经网络模型依然使用反向传播算法进行反复迭代优化，直到损失函数的值收敛，具体的优化策略可能更丰富了，如自适应梯度法(adaptive gradient，AdaGrad)^[36]、AdaDelta^[37]、RMSprop^[38]、自适应矩估计(adaptive moment estimation，Adam)^[39]等. 为了克服神经网络模型中的灾难性遗忘问题，最近，很多学者提出了他们的解决方案. 如Rebuffi等^[40]提出iCaRL方法，该方法选择性地存储之前任务的样本；Sarwar等^[41]提出基于部分网络共享的方法，该方法使用“克隆-分支”技术；Li等^[42]提出LwF方法，该方法主要以知识蒸馏的方式保留之前任务的知识；Zeng等^[43]提出使用正交权重修改结合情景模块依赖的方法；von Oswald等^[44]提出任务条件超网络，该网络表现出了保留之前任务记忆的能力；Li等^[45]结合神经结构优化和参数微调提出一种高效简单的架构. 也有学者研究了神经网络中的训练方法、激活函数及序列学习任务之间的关系怎样影响神经网络中的灾难性遗忘的问题，如Goodfellow等^[46]就发现dropout方法在适应新任务和记住旧任务中表现最好，激活函数的选择受两任务之间关系的影响比较大.

目前对神经网络模型中灾难性遗忘的研究主要是增量学习(incremental learning)，在很多情况下，也被称为持续学习(continous learning)或终身学习(lifelong learning)等. 这里如没有特别说明统一称为增量学习，但是有时为与原论文保持一致也可能使用持续学习或终身学习. 还有一些其他神经网络模型方法对灾难性遗忘问题的研究非常有意义且与增量学习有一定的交叉，如多任务学习(multi-task learning)、迁移学习(transfer learning). 多任务学习是同时学习多个任务，利用不同任务的互补，相互促进对方的学习^[47]；迁移学习主要是将之前学习的知识迁移到新任务上^[48]，但是这种学习方式不关心学习到新知识后是否发生灾难性遗忘，也即该方法主要的关注点是怎样将之前任务上的知识迁移到新任务上. 多任务学习、迁移学习和增量学习如图 1所示. 图 1(a)表示多任务学习的一个实例，model_a和model_b分别针对task_A、task_B，涵盖2个模型的蓝色背景代表model_a和model_b在同时训练2个任务时的某种联系，如共享神经网络的前几层等；图 1(b)表示迁移学习，model₁表示已经使用任务task_A的数据训练好的模型，model₂表示针对任务task_B的模型且尚未被训练，迁移学习就是将model₁的知识迁移到model₂；图 1(c)表示增量学习，在t时刻，model_I学习任务task_A，在t+1时刻model_I学习任务task_B，增量学习要求model_I在学习过task_B后不能忘记task_A.

图 1 多任务学习、迁移学习和增量学习

Figure 1. Multi-task learning, transfer learning and incremental learning

下载: 全尺寸图片幻灯片

显然，神经网络模型中的灾难性遗忘问题已经成为阻碍人工智能发展的绊脚石，该问题的解决无疑将是人工智能发展史上的一个重要里程碑. 为促进该问题的早日解决，本文对神经网络模型中灾难性遗忘问题的相关研究做了一个综述. 该综述的主要目的是为了总结之前在这方面的研究和对该问题提出一些研究建议.

1. 相关工作

之前的连接网络模型中，French^[49]对连接网络的灾难性遗忘的问题做了一个综述. 该文献不仅详细地分析了造成连接神经网络灾难性遗忘的原因，而且介绍了多种解决连接神经网络灾难性遗忘问题的方案. 该作者最后指出解决神经网络的灾难性遗忘问题需要2个单独的相互作用的单元，一个用于处理新信息，另一个用于存储先前学习的信息. 但是该文献作者分析的是早期的神经网络模型，随着神经网络技术的快速发展，现在的神经网络模型与连接神经网络模型在神经网络的结构、深度以及优化策略，甚至是训练神经网络模型的数据量等方面都有很大不同.

最近，为了总结对神经网络模型中灾难性遗忘的研究，也有部分学者做了一些综述性研究. de Lange等^[50]对持续学习中的图像分类任务做了一个对比性研究，首先对持续学习的方法进行了综合的介绍，如介绍很多持续学习的方法，将各种持续学习的方法进行了总结并归为基于回放的方法、基于正则化的方法和基于参数隔离的方法；其次，为了公正地对比不同持续学习方法的效果，还提出了一种对比性研究持续学习性能的框架. Lesort等^[51]综合性地研究了机器人中的增量学习. Parisi等^[52]对基于神经网络的持续性终身学习做了一个综述，首先对生物的终身学习做了详细的介绍，如人类怎样解决弹性-稳定性困境、赫布弹性稳定性、大脑互补的学习系统，这是该综述与其他类似综述最大的不同；然后，分析了神经网络模型中的终身学习方法，并将其分为：正则化方法、动态架构方法和互补学习系统及记忆回放. Belouadah等^[53]对视觉任务的类增量学习做了一个综合性研究，提出了增量学习的6个通用属性，即复杂度、内存、准确率、及时性、弹性和伸缩性，并将增量学习的方法分为基于微调的方法和基于固定表征的增量学习方法. Masana等^[54]提出了类增量学习所面临的挑战，即权重偏移、激活值偏移、任务间混淆和新旧任务失衡，并将类增量学习分为3类，基于正则化的方法、基于预演的方法和基于偏置-校正的方法. 文献[50-54]虽然都对神经网络中的克服灾难性遗忘的方法做了综述性研究，但是它们均有一定的局限性，如文献[50]仅介绍了持续学习中关于图像分类的方法，且用来对比不同持续学习方法性能的框架也是针对图像分类任务的，文献[51]仅研究了针对机器人的增量学习. 另外，文献[50-54]都没有涉及生成对抗模型或强化学习克服灾难性遗忘方法的介绍.

2. 减缓灾难性遗忘问题的方法

针对神经网络模型中的灾难性遗忘问题，相关学者提出了很多解决方法. 尽管相关文献大都声称提出的方法可以克服灾难性遗忘的问题，但实际上仅是不同程度地减缓神经网络模型中的灾难性遗忘问题，为了表述的严谨，本章的标题为减缓灾难性遗忘问题的方法. 由第1节的内容可以看出，不同的综述文献依据不同的规则，对减缓灾难性遗忘问题方法的分类并不相同，本节将减缓灾难性遗忘问题的方法分为4类，即基于样本的方法、基于模型参数的方法、基于知识蒸馏的方法和其他方法.

为方便下文的叙述，这里对下文中的符号进行统一，符号及其含义具体如表 1所示.

表 1 符号及其含义

Table 1. Symbols and definition

符号	含义
Task_pre	已经被神经网络模型学习过的任务的集合，等价于{T_pre¹, T_pre², …, T_preⁿ}
Tdata_pre	Task_pre相对应的各任务样本的集合，等价于{T_pre^d₁, T_pre^d₂, …, T_pre^d_n}
Tdata_select	由Tdata_pre中抽取的部分样本的集合，等价于{T_select^d₁, T_select^d₂, …, T_select^d_n}
Task_new	将要被神经网络模型学习的新任务的集合，等价于{T_new¹, T_new², …, T_new^p}
Tdata_new	Task_new相对应的各新任务样本的集合，等价于{T_new^d₁, T_new^d₂, …, T_new^d_p}
Class_pre	已经被神经网络模型学习过的类的集合，等价于{C_pre¹, C_pre², …, C_preⁿ}
Cdata_pre	Class_pre相对应的各类的样本的集合，等价于{C_pre^d₁, C_pre^d₂, …, C_pre^d_n}
Cdata_select	由Cdata_pre中抽取的部分样本，等价于{C_select^d₁, C_select^d₂, …, C_select^d_n}
Class_new	将要被神经网络模型学习的新类的集合，等价于{C_new¹, C_new², …, C_new^p}
Cdata_new	Class_new相对应的各新类的样本的集合，等价于{C_new^d₁, C_new^d₂, …, C_new^d_p}
Θ_s	神经网络模型的共享参数
Θ_{T_i}	神经网络模型针对任务T_i的特定参数
Θ	神经网络模型的全部参数
Model_pre	添加新任务或新类之前的神经网络模型
Model_target	添加新任务或新类之后的神经网络模型

下载: 导出CSV

| 显示表格

考虑到很多被提出的减缓灾难性遗忘的方法将共享参数Θ_s模块与特定任务参数Θ_{T_i}模块分开，这里有必要进行提前说明. 以卷积神经网络的图像分类任务为例，如图 2所示，淡红色方框的参数共享模块是指卷积神经网络中的前几层，这几层被认为提取图像的通用特征；浅绿色方框的特定任务模块是网络的分支，每个网络分支分别对应一个固定的任务T_preⁱ，且仅用于任务T_preⁱ的图像分类；浅蓝色方框的特定任务模块是为新任务添加的新网络分支，该模块用于新任务的图像分类. 这样划分是由于文献[55]已经指出卷积神经网络的前面几层学习的是不同任务所共享的通用知识，而之后的几层学习每个任务所专有的知识.

图 2 参数共享模块和特定任务模块

Figure 2. Parameter sharing module and task-specific module

下载: 全尺寸图片幻灯片

注意，由于增加新任务与增加新类非常相似，在下文中不做特别区分，均使用增加新任务表示；有些时候为与原论文表述一致，也会使用增加新类表示.

2.1 基于样本的方法

本文将直接或间接地用到Tdata_pre样本集中数据的方法称为基于样本的方法. 直接使用即为使用额外的内存存储Tdata_pre样本集中的部分数据Tdata_select，在学习新任务时，将Tdata_select与Tdata_new混合，最后使用混合后的数据训练Model_target. 间接使用主要指生成伪数据或保存Tdata_pre的特征，然后使用它们与Tdata_new或Tdata_new的特征混合训练Model_target. 在文献[50, 52]中也将该方法称为回放. 注意：有些方法中虽然用到了Tdata_pre中的部分样本数据，考虑到论文作者在克服灾难性遗忘中的主要思想是使用其他方法，因此这部分方法并没有被认为是基于样本的方法.

2.1.1 直接使用样本的方法

Guo等^[56]为解决增量学习中的灾难性遗忘问题，提出了支持样本表征的增量学习(exemplar-supported representation for incremental learning，ESRIL)方法. ESRIL包括3个部分：1) 记忆感知突触(memory aware synapses，MAS)模块，该模块使用ImageNet数据集预训练的深度卷积神经网络(deep convolutional neural network，DCNN)，是为了维持用之前任务Task_pre数据集训练的特征；2) 基于样例的字空间聚类(exemplar-based subspace clustering，ESC)模块，该模块是为了提取每个任务中的样本；3) 多质心最近类(the nearest class multiple centroids，NCMC)模块，该模块作为一个辅助分类器，当增加的新类数据与ImageNet数据很相似时，使用该分类器替代MAS中全连接层，减少训练时间. ESRIL的关键是每类数据中代表样本的选择，Guo等采用文献[57]中的方法进行样本的选择，通过迭代的方式不断优化

$$ {f_\eta }({z_j}, \mathit{\boldsymbol{Z}}_{\rm {new}}^k) = \mathop {\rm{min}}\limits_{{\mathit{\boldsymbol{h}}_j} \in {R^N}} \left( {\parallel {\mathit{\boldsymbol{h}}_j}{\parallel _1} + \frac{\mathit{\boldsymbol{\eta }}}{2}\parallel {z_j} - \sum\limits_{{z_j} \in Z_{\rm {new}}^k} {{h_{ij}}{z_i}} \parallel _2^2} \right) $$

(1)

式中: z_j表示样本x_j∈Cd_new^k被DCNN提取的特征；Z_new^k是X_new^k样本集的特征集合；η为一个超参数；N为C_new^{d^k}样本的数量；h_j=[h_1j, h_2j, …, h_Nj]^T，为子空间保持的稀疏形式^[57].

Belouadah等^[58]提出了一种基于双内存的增量学习方法，称为IL2M. 与普通基于样本的方法不同，该方法使用2个记忆模块：1) 第1个记忆模块存储之前任务Task_pre的部分样本Tdata_select；2) 记忆模块存储之前任务Task_pre每类样本初次学习时的统计量. 存储之前任务Task_pre部分样本Tdata_select的目的非常简单，是为了与新任务Task_new的数据混合，然后作为更新网络的训练数据；存储每类样本初次学习时的统计量，是由于初次训练时，该类样本的数据最全，相应地统计量也最准确；该统计量的作用是为了矫正更新网络时由于数据失衡(新任务Task_new的数据多，而之前任务Task_pre的数据少)所造成的偏差.

Isele等^[59]提出了一种选择性存储所有任务样本的方法，避免强化学习的灾难性遗忘. 该方法包括长时存储模块和短时存储模块. 长时存储模块称为情景记忆，存储的样本基于样本的等级(使用排序函数对样本排序). 短时记忆模块是一个先进先出(first-in-first-out，FIFO)区，该部分不断刷新，以确保网络能接触到所有的输入数据.

2.1.2 间接使用样本的方法

Hayes等^[60]提出了一种别样的基于样本的模型，该模型称为使用记忆索引的回放(replay using memory indexing，REMIND). REMIND模型并不存储之前任务Task_pre的原始样本，而是存储样本的特征. REMIND模型将样本的特征经过量化后给予索引号并存储，增加新任务Task_new时，将随机抽取r个存储的特征进行回放.

Atkinson等^[61]提出了RePR(reinforcement-Pseudo-Rehearsal)模型. RePR模型使用伪数据-预演的方式避免神经网络中的灾难性遗忘. RePR包括短时记忆(short-term memory, STM)和长时记忆模块(long-term memory, LTM). STM模块使用当前任务Task_new的数据Tdata_new训练针对当前任务的深度强化网络(deep Q-networks, DQNs)；LTM模块包括拥有之前所有任务Task_pre的知识和能生成之前所有任务伪数据的GAN. 结合迁移学习，将DQNs的知识迁移到Model_pre中；在知识迁移的过程中，真实的数据使得Model_target学习到新知识，GAN生成的伪数据维持Model_pre中之前任务的知识.

Atkinson等^[62]和Shin等^[63]均使用中GAN生成相应的伪数据. Atkinson等^[62]使用GAN生成伪图像代替随机生成的伪图像，因为随机生成的伪图像明显不同于自然的图像，这将导致网络能学习到很少的之前任务的知识. 当训练第T₁任务时，GAN被训练T₁的数据集D_T₁，增加了T₂任务后，GAN被训练使用T₂的数据集D_T₂；增加了T₃任务后，该方法显然就出现了问题，前一步中，GAN仅使用数据集D_T₂，意味着GAN生成的伪数据也是T₂的伪数据. 为了不增加内存的消耗，作者将GAN也使用伪标签进行训练，这样GAN生成的数据就代表之前所有任务的数据. Shin等^[63]提出的模型具有双架构〈G, S〉，G是深度生成器模型用来生成伪样本，S是解算器用来处理每个任务.

2.2 基于模型参数的方法

基于模型参数的方法根据是否直接使用模型参数进行分类：1) 选择性参数共享，该方法直接使用模型的参数；2) 参数正则化，该方法约束模型的重要参数进行小幅度变动，以保证对之前已学习知识的记忆.

2.2.1 选择性共享参数

该方法在预训练神经网络模型Model_pre后，增加新任务Task_new时选择性地使用神经网络模型的参数. 虽然神经网络模型的参数没有发生改变，由于针对不同任务所选择性激活神经网络中参数的不同，导致不同任务使用的神经网络的模型参数不同，进而使同一个神经网络模型的参数适应不同的任务. 可以看出，这种方式换一个角度解决神经网络中的灾难性遗忘问题. 这种方式的优点：1)不需要使用之前任务Task_pre的数据Tdata_pre；2)没有对神经网络模型进行较大的改进. 这种方式也有一个显著的缺点，虽然不需要使用先前任务的数据进行训练，但是需要针对不同任务存储一个激活参数，即使在相关文献中，作者一再强调存储的激活参数很小，但当任务量非常多时，即使逐渐小幅度定量的增加也是非常可怕的.

Mallya等^[64]提出了一种共享参数的方法，该方法不改变预训练骨干网络的参数Θ，而仅对每个任务训练掩模m，具体如图 3所示. 以第k个任务为例进行说明：首先训练得到掩模mask′_k；然后通过将掩模mask′_k二值化处理得到二值化掩模mask_k，如图 3中mask_k所示(红色实方框为表示1，深灰色实方框表示0)；最后将二值化掩模mask_k与预训练骨干网络的参数Θ_backbone逐元素运算得到适用于任务k的参数集Θ_k，如图 3中Θ_backbone和Θ_k所示(Θ_backbone中绿色实方框表示具体的参数，Θ_k中绿色实方框表示激活的参数，深灰色实方框表示未被激活的参数).

图 3 共享参数的方法^[64]

Figure 3. Method of sharing parameters^[64]

下载: 全尺寸图片幻灯片

Singh等^[65]提出了校准卷积神经网络的终身学习(calibrating CNNs for lifelong learning，CCLL)，该模型是一个与众不同的网络. 该网络重复使用训练的参数，不同之处在于该网络在每层卷积神经网络的输出位置添加一个校准模块，通过校准模块使该网络避免灾难性遗忘问题，同时适应新的任务. 该网络在神经网络的每层后面加一个任务适应校准模块CM_i^t(t表示第t个任务，i表示第i层卷积神经网络)，该模块包括由针对网络中的单个参数的空间校准模块和针对网络参数通道的通道校准模块. 空间校准模块计算式为

$$ M_i^{t\;*} = {\rm{GCON}}{{\rm{V}}_\alpha }(M_i^t) \oplus M_i^t $$

(2)

式中：M_i^t*表示第t个任务中第i层神经网络空间校准模块的输出；GCONV_α表示组卷积，每个组卷积有α个通道；M_i^t表示表示第t个任务中第i层神经网络的输出；⊕表示逐元素相乘. 空间校准模块的输出M_i^t*作为通道校准模块的输入，通道校准模块计算式为

$$ M_i^{t\;*\;*} = \sigma ({\rm{BN}}({\rm{GCON}}{{\rm{V}}_\beta }({\rm{GAP}}(M_i^{t\;*})))) \otimes M_i^{t\;*} $$

(3)

式中：M_i^t**表示第t个任务中第i层神经网络通道校准模块的输出；BN表示批归一化；GCONV_α表示组卷积，每个组卷积有β个通道；GAP表示全局均值池化；⊗表示逐通道相乘.

2.2.2 参数正则化

使用该方法时，Model_pre在添加新任务后，需要对神经网络进行重新训练；但是，由于添加了参数正则项，神经网络在训练的过程中会保证对重要参数进行小幅度的改变，以保证对之前任务Task_pre的效果.

Kirkpatrick等^[66]参考生物对特定任务的突触巩固原理，提出了类似于该原理的人工智能算法，即可塑权重巩固(elastic weight consolidation，EWC). 小鼠在学习新任务后，一定比例的突触会增强，并且能保持一段时间；相应地，神经网络模型的参数并非全是等价的，有些参数可能是有用的，有些参数可能作用非常低甚至是没有作用. 因此，作者提出缓慢改变神经网络模型中的重要参数，以使得模型不忘记之前学习的知识. EWC使用损失函数来实现该目的，即

$$ L\left( \theta \right) = {L_{\rm{B}}}\left( \theta \right) + \sum\limits_i {\frac{\lambda }{2}} {F_i}{({\theta _i} - \theta _{A, i}^*)^2} $$

(4)

式中：L_B(θ)表示针对task_B的分类损失函数；λ表示之前学习的task_A的重要性；F表示费雪矩阵；i是参数的索引；θ表示模型的参数；θ_{A, i}^*表示之前任务A的参数.

Chang等^[35]为了使GAN避免灾难性遗忘，提出了记忆保护生成对抗模型(memory protection GAN，MPGAN)，并设计了一种参数正则化方法(second derivative preserver，SDP). 考虑到已存在的参数正则化方法使用输出函数的一阶导数不能准确地评估参数的重要性，SDP使用输出函数的二阶导数. 使用F表示输出函数，θ表示模型的参数，则SDP表示为

$$ {I_{{\rm{SDP}}}}\left( \mathit{\boldsymbol{\theta }} \right) = {\left( {\frac{{\partial F}}{{\partial \mathit{\boldsymbol{\theta }}}}} \right)^{\rm{T}}}\delta \mathit{\boldsymbol{\theta }} + \frac{1}{2}\delta {\mathit{\boldsymbol{\theta }}^{\rm{T}}}\left( {\frac{{{\partial ^2}F}}{{\partial {\mathit{\boldsymbol{\theta }}^2}}}} \right)\delta \mathit{\boldsymbol{\theta }} $$

(5)

由于汉森矩阵计算较为复杂，在实际操作中使用费雪信息E[(∂F/∂θ)²]近似汉森矩阵. SDP使用

$$ {I_{{\rm{SDP}}}}\left( \mathit{\boldsymbol{\theta }} \right) = {\left( {\frac{{\partial F}}{{\partial \mathit{\boldsymbol{\theta }}}}} \right)^{\rm{T}}}\delta \mathit{\boldsymbol{\theta }} + \frac{1}{2}\delta {\mathit{\boldsymbol{\theta }}^{\rm{T}}}E\left[ {{{\left( {\frac{{\partial F}}{{\partial \mathit{\boldsymbol{\theta }}}}} \right)}^2}} \right]\delta \mathit{\boldsymbol{\theta }} $$

(6)

El等^[67]借用参数正则化的思想，提出了一种方式约束增加新任务后模型参数的改变. 作者将卷积神经网络的特征提取模块称为编码器，在编码器后由有2个分支网络，一个分支网络为了图像分类，另一个分支网络称为解码器，使用反卷积进行样本的重建. 为了训练该网络，作者在损失函数中添加了一个非监督重建损失，该损失的作用等同于参数正则化. 优化网络中的损失函数

$$ L = {L_{{\rm{cls}}}}(\mathit{\hat y}, y) + \lambda {L_{{\rm{rec}}}}(\hat x, x) $$

(7)

式中：L_cls($\hat y$, y)是图像分类的交叉熵损失，y为图像的真实标签，$\hat y$网络输出的预测标签；λ是超参数；L_rec($\hat x$, x)是重建损失，$\hat x$为重建样本，x为样本. L_rec表示为

$$ \begin{array}{l} \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{L_{{\rm{rec}}}}(\hat x, x) = - \frac{1}{{ND}} \cdot \\ \sum\limits_{n = 1}^N {\sum\limits_{ijk} {\left[ {{x_{ijk}}{{\log }_a}{{\hat x}_{ijk}} + \left( {1 - {x_{ijk}}} \right)\left( {1 - {{\log }_a}{{\hat x}_{ijk}}} \right)} \right]} } \end{array} $$

(8)

式中：N为样本x的数量；i、j、k三个索引分别为样本x的3个维度，D是样本x三个维度数的乘积；x_ijk为图像在索引(i, j, k)处的灰度值；$\hat x$_ijk为重建后图像在索引(i, j, k)处的灰度值.

2.3 基于知识蒸馏的方法

Hinton等^[68]于2015年提出了一种模型压缩的方法，即知识蒸馏. 该方法使用软目标辅助硬目标进行训练小模型model_small，软目标即将样本x_i输入到预训练的大模型model_big中得到的输出q_i，硬目标即为样本的真实标签y_i. 之所以这样做，是因为软目标中包含的信息量巨大；而硬目标包含的信息量较低. 如果model_big中真实类的输出结果远远大于其他类的结果，那就不能很好地使用软目标中的信息了，因此需要平滑softmax的输出结果，即

$$ {q_i} = \frac{{\exp \left( {{z_i}/T} \right)}}{{\sum\limits_j {\exp \left( {{z_j}/T} \right)} }} $$

(9)

式中：z_i为softmax前一层(该层的神经元个数已被映射为训练任务的类别数)的输出；T为温度，T越大model_big输出的结果越软. 知识蒸馏的方法被广泛应用于模型压缩^[69-71]、迁移学习^[72-74]等领域，也被广泛应用于解决神经网络模型的灾难性遗忘问题中^[75-79]. 图 4为知识蒸馏的示意图，将训练样本data同时输入到model_big和model_small，通过知识蒸馏的方式将model_big的知识迁移到model_small.

图 4 知识蒸馏

Figure 4. Knowledge distillation

下载: 全尺寸图片幻灯片

Li等^[42]结合知识蒸馏设计了学而不忘模型(learning without forgetting，LwF)，该模型在增加新类Class_new时，仅需要使用新类Class_new的数据训练模型，且能避免对之前学习知识的遗忘. LwF模型使用前几层作为特征提取模块，为所有任务共享；之后几层作为特定任务模块，为不同任务的单独所有. LwF使用的损失函数

$$ \begin{array}{l} L = {\lambda _0}{L_{{\rm{old}}}}\left( {{Y_0}, {{\hat Y}_0}} \right) + {L_{{\rm{new}}}}\left( {{Y_n}, {{\hat Y}_n}} \right) + \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;R\left( {{{\hat \theta }_{\rm{s}}}, {{\hat \theta }_o}, {{\hat \theta }_n}} \right) \end{array} $$

(10)

式中：λ₀为一个超参数，值越大，相应地对蒸馏损失的权重就越大；L_old(Y₀, $\hat Y$₀)为软标签的损失，Y₀为增加新类Class_new前模型的软标签，$\hat Y$₀增加新类Class_new后训练过程中模型输出的软标签；L_new(Y_n, $\hat Y$_n)增加新类别的标准损失，Y_n为新类别数据的真实标签，$\hat Y$_n为训练过程中模型的输出；R(${\hat \theta _s}, {\hat \theta _o}, {\hat \theta _n}$)为正则项，${\hat \theta _s}$为共享参数，${\hat \theta _o}$之前任务的特定任务参数，${\hat \theta _n}$为新任务的特定任务参数.

Shmelkov等^[75]和Chen等^[76]分别提出了新的损失函数，将知识蒸馏的方法用到目标检测的灾难性遗忘中，这里以文献[75]为例进行说明. Shmelkov等^[75]提出的损失函数使Fast RCNN网络在增加新的任务时，不用使用之前任务的数据，且表现出对之前任务知识的不遗忘. 将当前的网络称为C_A，C_A增加新任务后需要增加新的分类分支和使用新任务的数据进行重新训练，此时的网络称为C_B. 由于目标检测任务中需要进行分类与回归训练，因此作者结合分类与回归提出蒸馏损失函数

$$ \begin{array}{l} \;\;\;\;\;\;\;\;\;\;{L_{{\rm{dist}}}}\left( {{y_{\rm{A}}}, {t_{\rm{A}}}, {y_{\rm{B}}}, {t_{\rm{B}}}} \right) = \\ \frac{1}{{N\left| {{C_{\rm{A}}}} \right|}}\sum {\left[ {{{\left( {{{\bar y}_{\rm{A}}} - {{\bar y}_{\rm{B}}}} \right)}^2} + {{\left( {{{\bar t}_{\rm{A}}} - {{\bar t}_{\rm{B}}}} \right)}^2}} \right]} \end{array} $$

(11)

式中：N表示感兴趣区域(region of interest，RoI)的个数，|C_A|表示增加新任务前目标的种类个数，y_A与y_B分别是C_A和C_B的分类输出，t_A与t_B分别是C_A和C_B的回归输出. y_A、y_B、t_A、t_B参数计算稍复杂，作者从每幅图像中的128个具有最小背景分数的RoI中随机抽取64个；对于C_A，此64个RoI的分类输出的均值不妨记为y′_A，令每个RoI的输出减去y′_A既得y_A、y_B、t_A、t_B的计算同理.

Hou等^[77]结合知识蒸馏与样本回放的方式提出了适应蒸馏的方法，该方法首先针对新任务t_new训练一个模型CNN_expert，然后通过知识蒸馏的方式将新任务的知识迁移到目标模型CNN_target，与LwF不同的是，该方法在知识蒸馏时用到少量的之前任务的样本.

Castro等^[78]使用之前任务的小部分数据和当前任务的数据设计了一个端到端的增量学习模型，由任务共享模块特征提取和特定任务模块组成. 针对该架构，作者提出了交叉-蒸馏损失公式

$$ L\left( \omega \right) = {L_{\rm{C}}}\left( \omega \right) + \sum\limits_{f = 1}^F {{L_{{D_f}}}\left( \omega \right)} $$

(12)

式中：L_C(ω)为新旧任务所有数据的交叉熵损失；L_{D_f}(ω)表示每个特定任务层的蒸馏损失. L_C(ω)和L_{D_f}(ω)表示为

$$ {L_{\rm{C}}}\left( \omega \right) = - \frac{1}{N}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^C {{p_{ij}}{{\log }_a}{q_{ij}}} } $$

(13)

$$ {L_{\rm{D}}}\left( \omega \right) = - \frac{1}{N}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^C {{\rm{pdis}}{{\rm{t}}_{ij}}{{\log }_a}{\rm{qdis}}{{\rm{t}}_{ij}}} } $$

(14)

式中：N和C分别表示样本的数目和样本的类别数；p_ij表示样本真实标签，q_ij为模型的输出；pdist_ij与qdist_ij类比于p_ij和q_ij.

Lee等^[79]结合未标记的大规模野生动物数据设计了一个蒸馏损失，称为全局蒸馏(global distillation，GD)^[79]. 用M_t表示增加第t个任务时所需要训练的最终模型，θ和ϕ_1:t分别表示M_t中各任务的共享参数和特定任务参数，ϕ_1:t={ϕ₁, ϕ₂, …, ϕ_t}，D_t^trn表示第t个任务的数据集和小部分之前任务的数据的混合；则训练M_t的标准损失为L_cls(θ, ϕ_1:t; D_t^trn). 考虑到D_t^trn仅包括小部分之前任务的数据，直接使用该数据集训练M_t可能导致灾难性遗忘，因此需要在损失函数中加入蒸馏损失. 使用之前的M_t-1模型生成软标签，为了避免数据偏置，生成软标签的数据集为D_t^trn∪D_t^ext，D_t^ext由未标记的野生动物数据集抽样得到，则该部分损失为L_dst(θ, ϕ_1:t-1; M_t-1, D_t^trn∪D_t^ext). 仅使用M_t-1进行知识蒸馏未考虑第t个任务的知识，添加了C_t，C_t为仅使用第t个任务数据集训练的模型，该部分的损失为L_dst(θ, ϕ_1:t; C_t, D_t^trn∪D_t^ext).由于M_t-1与C_t分别独立地包含t之前任务和第t个任务的知识，可能有知识遗漏，因此结合M_t-1与C_t构建了模型Q_t，该部分损失为L_dst(θ, ϕ_1:t; Q_t, D_t^ext). 最终，全局蒸馏损失为

$$ \begin{array}{l} \;\;\;{\rm{Los}}{{\rm{s}}_{{\rm{GD}}}} = {L_{{\rm{cls}}}}(\theta , {\phi _{1:t}};D_t^{{\rm{trn}}}) + \\ {L_{{\rm{dst}}}}(\theta , {\phi _{1:(t - 1)}};{P_t}, D_t^{{\rm{trn}}} \cup D_t^{{\rm{ext}}}) + \\ \;\;\;{L_{{\rm{dst}}}}(\theta , {\phi _t};{C_t}, D_t^{{\rm{trn}}} \cup D_t^{{\rm{ext}}}) + \\ \;\;\;\;\;\;\;{L_{dst}}(\theta , {\phi _{1:t}};{Q_t}, D_t^{{\rm{ext}}}) \end{array} $$

(15)

2.4 其他方法

除了上面所述的3类方法外，一些学者还提出了其他方法为避免神经网络中的灾难性遗忘. Muñoz-Martín等^[80]将有监督的卷积神经网络与受生物启发的无监督学习相结合，提出一种神经网络概念；不同于参数正则化方法，Titsias等^[81]提出一种函数正则化的方法；Cao在将学习系统视为一个纤维丛(表示一种特殊的映射)，提出了一个学习模型^[82]. 该学习模型的架构如图 5所示，该图根据文献[82]所画，与动态地选择模型的参数不同，该模型动态地选择解释器. 图 5(a)表示了一个普通的神经网络，即输入x通过神经网络得到输出y；图 5(b)表示作者所提出的学习模型的架构，该架构主要有以下几步：1)输入x通过生成器Generator被编码为潜在空间L中的x_L，这里相似的样本会得到x_L；2) 基于x_L选择神经网络中被激活的神经元，得到解释器Interpretor：f_x；3) 将样本x输入到解释器f_x得到输出y. 为了使该学习模型能有对时间的感知，作者又在模型中引入了一个生物钟，

$$ T = {T_{{\rm{min}}}} + \sigma \left[ {\psi \left( x \right)} \right]({T_{{\rm{max}}}} - {T_{{\rm{min}}}}) $$

(16)

$$ {Y_t} = (A{\rm{sin}}(2{\rm{ \mathsf{ π} }}t/T), A{\rm{cos}}(2{\rm{ \mathsf{ π} }}t/T)) $$

(17)

图 5 普通神经网络和纤维束学习系统^[82]

Figure 5. Common neural network and learning system with a fiber bundle^[82]

下载: 全尺寸图片幻灯片

式中：x表示输入；Y_t表示生物钟的输出；t表示当前时刻；T表示周期；T_min和T_max均为超参数，分别表示T的最小值与最大值；σ表示sigmoid函数；ψ表示可训练的神经网络模型. 通过实验作者发现该学习模型不仅具有良好的持续学习能力，而且还具有一定的信息存储能力.

3. 减缓灾难性遗忘的评价准则

针对神经网络中的灾难性遗忘问题，大量学者提出了自己的方法，无论是基于样本的方法，或是基于模型参数的方法，又或是基于知识蒸馏的方法等等；总之，解决方案有很多，那么这又产生了一系列问题：如何确定哪种方法最优？如何确定某种解决方案所适应的环境？如何评价不同方法的优劣？

针对如何评价不同方法这个问题，也有一些学者进行了相应的研究. Kemker等^[83]提出了衡量灾难性遗忘问题的实验基准和评估指标. 这里只介绍3个评价指标，该评指标主要有3个新的评估参数

$$ {\mathit{\Omega }_{{\rm{base}}}} = \frac{1}{{T - 1}}\sum\limits_{i = 2}^T {\frac{{{\alpha _{{\rm{base}}, i}}}}{{{\alpha _{{\rm{ideal}}}}}}} $$

(18)

$$ {\mathit{\Omega }_{{\rm{new}}}} = \frac{1}{{T - 1}}\sum\limits_{i = 2}^T {{\alpha _{new, i}}} $$

(19)

$$ {\mathit{\Omega }_{{\rm{all}}}} = \frac{1}{{T - 1}}\sum\limits_{i = 2}^T {\frac{{{\alpha _{{\rm{all}}, i}}}}{{{\alpha _{{\rm{ideal}}}}}}} $$

(20)

式中：T表示任务的数量；α_{base, i}表示训练第i个任务后，神经网络模型对第1个任务的准确率；α_ideal表示训练基础数据集(也即第1个任务)后，神经网络模型对基础数据集的准确率；α_{new, i}表示训练第i个任务后，神经网络模型对该任务的准确率；α_{all, i}表示模型对当前所能得到所有数据的准确率. 这里式(18)中的Ω_base表示神经网络模型在训练T个任务之后，对学习到第1个任务知识的遗忘程度；式(19)中的Ω_new表示神经网络模型在学习到新任务后，对新任务的适应能力；式(20)中的Ω_all计算模型保留先前学习的知识和学习到新知识的能力. van de Ven等^[84]也指出，虽然有很多针对神经网络中灾难性遗忘问题的解决方案，但是由于没有统一的评价基准，导致直接对比不同解决方案的效果非常困难. 为了能结构化地比较不同的解决方案，van de Ven等提出了3种困难度逐渐加大的连续学习的情景，每个情景包含2种任务协议. 3种任务情景分别为：1)测试时，已知任务ID；2)测试时，任务ID未知，且不需要判断任务ID；3)测试时，任务ID未知，且需要判断出任务ID. 第1种实验情景针对的是任务增量学习(task-IL)，即每个任务在输出层都有与之对应的特定的输出单元，而其余网络是共享的；第2种实验情景是针对域增量学习(domain-IL)，即任务的结构相同但输入分布却不相同；第3种实验情景针对类增量学习(class-IL)，即递增地学习新类. 在文献中，作者将第1种任务协议称为分割MNIST任务协议，该协议将MNIST数据集中分为5个任务，每个任务包含2类；作者将第2种任务协议称为置换MNIST任务协议，该协议包含10个任务，每个任务包含10类，将原始MNIST作为任务1，在MNIST基础上随机生成另外9组数据即任务2~9的数据集. Pfülb等^[85]也提出了一个评价深度神经网络(deep neural networks，DNNs)灾难性遗忘问题的范例. 该评价范例主要是针对实际应用层面，主要包括：1)在DNNs上训练序列学习任务(sequential learning tasks，STLs)时，模型应能保证能随时增加新类；2)模型应该对先前学习过的任务表现出一定的记忆力，即使灾难性遗忘不可避免，至少应该缓慢的遗忘之前所学习的知识，而不是立即遗忘；3)DNNs如果应用到嵌入式设备或机器人中，应该满足内存占用低、添加任务时重新训练的时间或内存复杂度不应依赖于子任务的数量等. 除了提出新的评价方法，也有学者提出了用于测试神经网络模型中灾难性遗忘问题性能的新数据集，如Lomonaco等^[86]提出了基准数据集CORe50，该数据集用于测试不同持续学习方法对目标检测的效果.

4. 讨论

由神经网络模型将信息存储在它的权重参数中可以看出，其产生灾难性遗忘问题的根本原因：同一个神经网络模型在学习新任务时，其权重参数在反向传播算法的作用下不断更新以适应新任务；神经网络模型权重参数的改变，进而导致其不适用于之前学习的任务. 如果允许使用无限并行扩大的神经网络模型且不改变之前模型的参数，可以看出灾难性遗忘问题能轻易地被解决，如图 6所示. tasks是所有任务的并集$\bigcup\limits_{i = 1}^n {{\rm{tas}}{{\rm{k}}_i}} $；models是适应每个任务task_i的模型的并集$\bigcup\limits_{i = 1}^n {{\rm{mode}}{{\rm{l}}_i}} $，显然使用这种简单扩展神经网络模型的方法意义不大. 之所以说灾难性遗忘问题没有被解决且一直是阻碍现在人工智能领域突破的关键点，是因为想使用尽量有限的神经网络模型完成尽可能多的任务. 如图 7所示，t₁时刻仅有task₁出现，为任务task₁设计且训练的神经网络模型model_A；t₂时刻任务task₂出现，想在尽量小地改变神经网络模型model_A的前提下让其学习到任务task₂的知识，且model_A学习到任务task₂的知识后仍然对任务task₁具有良好的效果；t₃时刻任务task₃出现，依然想在尽量小地改变神经网络模型model_A的前提下让其学习任务task₃的知识，且model_A学习到任务task₃的知识后仍然对任务task₁和任务task₂具有良好的效果；当任务task₄出现时……. 注意：图 7中某一时刻多个任务同时指向model_A，并不意味着model_A在该时刻同时训练这多个任务的数据，仅表示model_A能同时适应这多个不同时间出现的任务；如任务task₁和任务task₂同时指向model_A，仅表示model_A能同时适应t₁时刻出现的task₁和t₂时刻出现的task₂，并不意味着model_A在t₂时刻同时训练任务task₁和任务task₂的数据. 由上可以看出，灾难性遗忘问题可以表述为在尽量小地改变神经网络模型的前提下，使得神经网络模型学习尽可能多的新知识且依然能记得先前学习过的知识. 灾难性遗忘实际可以类比为人类或其他哺乳动物的记忆功能，人类在学习新知识后并不会忘记之前学习的知识，而灾难性遗忘则与之相反.

图 6 无限扩大的神经网络模型

Figure 6. Infinitely expanding neural network model

下载: 全尺寸图片幻灯片

图 7 逐渐增加模型的任务

Figure 7. Gradually add tasks to the model

下载: 全尺寸图片幻灯片

在尽量小地改变神经网络模型自身的情况下允许神经网络模型适应更多的新任务且不发生灾难性遗忘. 如直接使用样本回放的方法，并非简单地将所有任务的样本混合而是想要找到每个任务中具有代表性的样本，并使用不同的方法对样本进行排序，进而选择具有代表性的样本；在使用生成伪数据的方法中，想要生成适量的伪数据而不是无限扩展网络；参数正则化的方法中，想要找到神经网络模型中最重要的参数，并对其进行约束，而不是简单地约束所有参数；在知识蒸馏中，想要将知识由一种网络迁移到另一种网络，而不是简单地将2个网络并联. 另外，第3节中的很多方法依据生物的认知记忆等原理进行改进创新，以期达到克服神经网络模型中灾难性遗忘的目的^{[66, 80, 82]}. 注意：对减缓灾难性遗忘方法的分类并不是绝对的，如文献[77-78]既用到了知识蒸馏的方法，也用到了样本的方法；这里的分类依据是作者解决神经网络模型中灾难性遗忘问题的主要思想，以文献[78]为例，作者在文中主要的关注点是使用知识蒸馏的方法避免灾难性遗忘，而使用之前任务所组成的小样本集仅是作者使用的一个辅助的方式，因此将该方法归类为知识蒸馏的类中.

5. 总结与建议

首先将减缓神经网络模型灾难性遗忘的方法分为四大类，并对不同大类的方法进行了介绍；然后，介绍了几种评价减缓神经网络模型灾难性遗忘性能的方法；接着，对神经网络模型中的灾难性遗忘问题进行了开放性的探讨.

如果将人类的大脑看成一个复杂的神经网络模型，可以观察到人类并没有灾难性遗忘的问题. 这说明现在的神经网络模型与人脑相比仍有非常大的缺陷，仍有非常大的进步空间. 对于怎样解决灾难性遗忘的问题，本文最后提出了几个解决思路：1) 探索生物怎样避免灾难性遗忘的机制，并根据该机制设计相似的神经网络模型. 2) 探索神经网络模型存储信息的新机制，如果神经网络模型在学习新知识后仍能保持对之前学习的知识不遗忘，必然需要存储一些关于之前学习的知识的一些信息，怎样高效地存储和利用这些信息值得研究. 3) 选取具有代表性的样本也是一种方法. 该方法不仅存在于生物的认知中，也广泛存在于社会生活中. 如社会生活中的选举，某一社会团体通常推选出该团体中的某几位成员而不是全体成员代表该社会团体，这也从另一个角度说明，部分样本往往可以近似代表总体样本. 对比到神经网络模型中，选取某一任务中具有代表性的样本，而不是使用所有样本代表该任务；该方法需要确定推选机制，即怎样确定样本集中的某些样本具有代表该样本集的能力. 一个显而易见的事实是，神经网络模型是对生物神经网络的模仿，而现在神经网络模型出现灾难性遗忘的问题，说明对生物的神经网络研究的并不彻底，还有很多盲点. 思路1)进一步研究生物的避免研究灾难性遗忘的机制，应该是研究的重点和趋势.

为彻底解决神经网络模型中的灾难性遗忘问题，需要人工智能等方面学者们的努力，也需要脑科学、心理学等方面学者们的支持.

图 1 多任务学习、迁移学习和增量学习

Figure 1. Multi-task learning, transfer learning and incremental learning

下载: 全尺寸图片幻灯片

图 2 参数共享模块和特定任务模块

Figure 2. Parameter sharing module and task-specific module

下载: 全尺寸图片幻灯片

图 3 共享参数的方法^[64]

Figure 3. Method of sharing parameters^[64]

下载: 全尺寸图片幻灯片

图 4 知识蒸馏

Figure 4. Knowledge distillation

下载: 全尺寸图片幻灯片

图 5 普通神经网络和纤维束学习系统^[82]

Figure 5. Common neural network and learning system with a fiber bundle^[82]

下载: 全尺寸图片幻灯片

图 6 无限扩大的神经网络模型

Figure 6. Infinitely expanding neural network model

下载: 全尺寸图片幻灯片

图 7 逐渐增加模型的任务

Figure 7. Gradually add tasks to the model

下载: 全尺寸图片幻灯片

表 1 符号及其含义

Table 1 Symbols and definition

符号	含义
Task_pre	已经被神经网络模型学习过的任务的集合，等价于{T_pre¹, T_pre², …, T_preⁿ}
Tdata_pre	Task_pre相对应的各任务样本的集合，等价于{T_pre^d₁, T_pre^d₂, …, T_pre^d_n}
Tdata_select	由Tdata_pre中抽取的部分样本的集合，等价于{T_select^d₁, T_select^d₂, …, T_select^d_n}
Task_new	将要被神经网络模型学习的新任务的集合，等价于{T_new¹, T_new², …, T_new^p}
Tdata_new	Task_new相对应的各新任务样本的集合，等价于{T_new^d₁, T_new^d₂, …, T_new^d_p}
Class_pre	已经被神经网络模型学习过的类的集合，等价于{C_pre¹, C_pre², …, C_preⁿ}
Cdata_pre	Class_pre相对应的各类的样本的集合，等价于{C_pre^d₁, C_pre^d₂, …, C_pre^d_n}
Cdata_select	由Cdata_pre中抽取的部分样本，等价于{C_select^d₁, C_select^d₂, …, C_select^d_n}
Class_new	将要被神经网络模型学习的新类的集合，等价于{C_new¹, C_new², …, C_new^p}
Cdata_new	Class_new相对应的各新类的样本的集合，等价于{C_new^d₁, C_new^d₂, …, C_new^d_p}
Θ_s	神经网络模型的共享参数
Θ_{T_i}	神经网络模型针对任务T_i的特定参数
Θ	神经网络模型的全部参数
Model_pre	添加新任务或新类之前的神经网络模型
Model_target	添加新任务或新类之后的神经网络模型

下载: 导出CSV

参考文献(86)

[1]	SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489. doi: 10.1038/nature16961
[2]	SILVER D, SCHRITTWIESER J, SIMONYAN K, et al. Mastering the game of Go without human knowledge[J]. Nature, 2017, 550(7676): 354-359. doi: 10.1038/nature24270
[3]	HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.
[4]	HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 7132-7141.
[5]	SILVER D, HUBERT T, SCHRITTWIESER J, et al. A general reinforcement learning algorithm that masters chess, shogi, and go through self-play[J]. Science, 2018, 362(6419): 1140-1144. doi: 10.1126/science.aar6404
[6]	YE D, LIU Z, SUN M, et al. Masteringcomplex control in MOBA games with deep reinforcement learning[C]//AAAI. Cambridge, MA: AAAI Press, 2020: 6672-6679.
[7]	LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 3431-3440.
[8]	HE K, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2961-2969.
[9]	RENARD F, GUEDRIA S, DE PALMA N, et al. Variability and reproducibility in deep learning for medical image segmentation[J]. Scientific Reports, 2020, 10(1): 1-16. doi: 10.1038/s41598-019-56847-4
[10]	PORZI L, HOFINGER M, RUIZ I, et al. Learning multi-object tracking and segmentation from automatic annotations[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 6846-6855.
[11]	KONG T, SUN F, LIU H, et al. Foveabox: Beyound anchor-based object detection[J]. IEEE Transactions on Image Processing, 2020, 29: 7389-7398. doi: 10.1109/TIP.2020.3002345
[12]	DING M, HUO Y, YI H, et al. Learning depth-guided convolutions for monocular 3d object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 1000-1001.
[13]	QIN Z, LI Z, ZHANG Z, et al. ThunderNet: towards real-time generic object detection on mobile devices[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE, 2019: 6718-6727.
[14]	DEVLIN J, CHANG M W, LEE K, et al. Bert: pre-training of deep bidirectional transformers for language understanding[J]. arXiv, 2018: abs/1810. 04805.
[15]	LAN Z, CHEN M, GOODMAN S, et al. Albert: a lite bert for self-supervised learning of language representations[J]. arXiv, 2019: abs/1909. 11942.
[16]	RADFORD A, WU J, CHILD R, et al. Language models are unsupervised multitask learners[J]. OpenAI Blog, 2019, 1(8): 9. http://web.archive.org/web/20190226183542/https:/d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf
[17]	BROWN T B, MANN B, RYDER N, et al. Language models are few-shot learners[J]. arXiv, 2020: abs/2005. 14165.
[18]	ARTACHO B, SAVAKIS A. UniPose: unified human pose estimation in single images and videos[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 7035-7044.
[19]	CHEN L, AI H, CHEN R, et al. Cross-view tracking for multi-human 3D pose estimation at over 100 FPS[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 3279-3288.
[20]	CHEN X, WANG G, GUO H, et al. Pose guided structured region ensemble network for cascaded hand pose estimation[J]. Neurocomputing, 2020, 395: 138-149. doi: 10.1016/j.neucom.2018.06.097
[21]	JIN S, XU L, XU J, et al. Whole-body human pose estimation in the wild[C]//European Conference on Computer Vision. Berlin: Springer, 2020: 196-214.
[22]	CARPENTER G A, GROSSBERG S. The ART of adaptive pattern recognition by a self-organizing neural network[J]. Computer, 1988, 21(3): 77-88. doi: 10.1109/2.33
[23]	MCCLOSKEY M, COHEN N J. Catastrophic interference in connectionist networks: the sequential learning problem[J]. The Psychology of Learning and Motivation, 1989, 24: 109-165. http://www.sciencedirect.com/science/article/pii/S0079742108605368
[24]	HETHERINGTON P. Is there 'catastrophic interference' in connectionist networks?[C]//Proceedings of the 11th Annual Conference of the Cognitive Science Society. Mahwah: Lawrence Erlbaum Associates, 1989: 26-33.
[25]	MCRAE K, HETHERINGTON P A. Catastrophic interference is eliminated in pretrained networks[C]//Proceedings of the 15h Annual Conference of the Cognitive Science Society. Mahwah, NJ: Lawrence Erlbaum Associates, 1993: 723-728.
[26]	FRENCH R M. Pseudo-recurrent connectionist networks: An approach to the 'sensitivity-stability' dilemma[J]. Connection Science, 1997, 9(4): 353-380. doi: 10.1080/095400997116595
[27]	ANS B, ROUSSET S. Avoiding catastrophic forgetting by coupling two reverberating neural networks[J]. Comptes Rendus de l'Académie des Sciences-Series III-Sciences de la Vie, 1997, 320(12): 989-997. doi: 10.1016/S0764-4469(97)82472-9
[28]	ROBINS A. Catastrophic forgetting, rehearsal and pseudorehearsal[J]. Connection Science, 1995, 7(2): 123-146. doi: 10.1080/09540099550039318
[29]	ARIVAZHAGAN N, BAPNA A, FIRAT O, et al. Massively multilingual neural machine translation in the wild: findings and challenges[J]. arXiv, 2019: abs/1907. 05019.
[30]	SHAZEER N, MIRHOSEINI A, MAZIARZ K, et al. Outrageously large neural networks: the sparsely-gated mixture-of-experts layer[J]. arXiv, 2017: abs/1701. 06538.
[31]	ZACARIAS A, ALEXANDRE L A. SeNA-CNN: overcoming catastrophic forgetting in convolutional neural networks by selective network augmentation[C]//IAPR Workshop on Artificial Neural Networks in Pattern Recognition. Berlin: Springer, 2018: 102-112.
[32]	ROY D, PANDA P, ROY K. Tree-CNN: a hierarchical deep convolutional neural network for incremental learning[J]. Neural Networks, 2020, 121: 148-160. doi: 10.1016/j.neunet.2019.09.010
[33]	SCHAK M, GEPPERTH A. A study on catastrophic forgetting in deep LSTM networks[C]//International Conference on Artificial Neural Networks. Berlin: Springer, 2019: 714-728.
[34]	THANH-TUNG H, TRAN T. Catastrophic forgetting and mode collapse in GANs[C]//2020 International Joint Conference on Neural Networks (IJCNN). Piscataway: IEEE, 2020: 1-10.
[35]	CHANG Y, LI W, PENG J, et al. Memory protection generative adversarial network (MPGAN): a framework to overcome the forgetting of GANs using parameter regularization methods[J]. IEEE Access, 2020, 8: 179942-179954. doi: 10.1109/ACCESS.2020.3028067
[36]	DUCHI J, HAZAN E, SINGER Y. Adaptive subgradient methods for online learning and stochastic optimization[J]. Journal of Machine Learning Research, 2011, 12(7): 2121-2159. http://web.stanford.edu/~jduchi/projects/DuchiHaSi10.html
[37]	ZEILER M D. Adadelta: an adaptive learning rate method[J]. arXiv, 2012: abs/1212. 5701.
[38]	TIELEMAN T, HINTON G. Lecture 6.5-rmsprop: divide the gradient by a running average of its recent magnitude[Z/OL]. [2012-02-11]. https://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf.
[39]	KINGMA D, BA J. Adam: a method for stochastic optimization[C]//Proceedings of International Conference on Learning Representations. Amsterdam: Amsterdam Machine Learning Lab, 2015.
[40]	REBUFFI S A, KOLESNIKOV A, SPERL G, et al. Icarl: incremental classifier and representation learning[C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 2001-2010.
[41]	SARWAR S S, ANKIT A, ROY K. Incremental learning in deep convolutional neural networks using partial network sharing[J]. IEEE Access, 2019, 8: 4615-4628. http://arxiv.org/abs/1712.02719
[42]	LI Z, HOIEM D. Learning without forgetting[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(12): 2935-2947. http://europepmc.org/abstract/MED/29990101
[43]	ZENG G, CHEN Y, CUI B, et al. Continual learning of context-dependent processing in neural networks[J]. Nature Machine Intelligence, 2019, 1(8): 364-372. doi: 10.1038/s42256-019-0080-x
[44]	VON OSWALD J, HENNING C, SACRAMENTO J, et al. Continual learning with hypernetworks[C]//International Conference on Learning Representations. Amsterdam: Elsevier, 2019.
[45]	LI X, ZHOU Y, WU T, et al. Learn to grow: a continual structure learning framework for overcoming catastrophic forgetting[C]//International Conference on Machine Learning. New York, NY: ACM, 2019: 3925-3934.
[46]	GOODFELLOW I J, MIRZA M, XIAO D, et al. An empirical investigation of catastrophic forgetting in gradient-based neural networks[J]. arXiv, 2013: abs/1312. 6211.
[47]	RUDER S. An overview of multi-task learning in deep neural networks[J]. arXiv, 2017: abs/1706. 05098.
[48]	ZHUANG F, QI Z, DUAN K, et al. Acomprehensive survey on transfer learning[C]//Proceedings of the IEEE. Piscataway: IEEE, 2020: 1-34.
[49]	FRENCH R M. Catastrophic forgetting in connectionist networks[J]. Trends in Cognitive Sciences, 1999, 3(4): 128-135. doi: 10.1016/S1364-6613(99)01294-2
[50]	DE LANGE M, ALJUNDI R, MASANA M, et al. Continual learning: acomparative study on how to defy forgetting in classification tasks[J]. arXiv, 2019: abs/1909. 08383.
[51]	LESORT T, LOMONACO V, STOIAN A, et al. Continual learning for robotics: definition, framework, learning strategies, opportunities and challenges[J]. Information Fusion, 2020, 58: 52-68. doi: 10.1016/j.inffus.2019.12.004
[52]	PARISI G I, KEMKER R, PART J L, et al. Continual lifelong learning with neural networks: a review[J]. Neural Networks, 2019, 113: 54-71. doi: 10.1016/j.neunet.2019.01.012
[53]	BELOUADAH E, POPESCU A, KANELLOS I. Acomprehensive study of class incremental learning algorithms for visual tasks[J]. arXiv, 2020: abs/2011. 01844.
[54]	MASANA M, LIU X, TWARDOWSKI B, et al. Class-incremental learning: survey and performance evaluation[J]. arXiv, 2020: abs/2010. 15277.
[55]	YOSINSKI J, CLUNE J, BENGIO Y, et al. How transferable are features in deep neural networks?[C]//Advances in Neural Information Processing Systems. La Jolla, CA: Neural Information Processing Systems Foundation, 2014: 3320-3328.
[56]	GUO L, XIE G, XU X, et al. Exemplar-supported representation for effective class-incremental learning[J]. IEEE Access, 2020, 8: 51276-51284. doi: 10.1109/ACCESS.2020.2980386
[57]	YOU C, LI C, ROBINSON D P, et al. Scalable exemplar-based subspace clustering on class-imbalanced data[C]//Proceedings of the European Conference on Computer Vision. Berlin: Springer, 2018: 67-83.
[58]	BELOUADAH E, POPESCU A. Il2m: class incremental learning with dual memory[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE, 2019: 583-592.
[59]	ISELE D, COSGUN A. Selective experience replay for lifelong learning[J]. arXiv, 2018: abs/1802. 10269.
[60]	HAYES T L, KAFLE K, SHRESTHA R, et al. Remind your neural network to prevent catastrophic forgetting[C]//European Conference on Computer Vision. Berlin: Springer, 2020: 466-483.
[61]	ATKINSON C, MCCANE B, SZYMANSKI L, et al. Pseudo-rehearsal: achieving deep reinforcement learning without catastrophic forgetting[J]. arXiv, 2018: abs/1812. 02464.
[62]	ATKINSON C, MCCANE B, SZYMANSKI L, et al. Pseudo-recursal: solving the catastrophic forgetting problem in deep neural networks[J]. arXiv, 2018: 1802. 03875.
[63]	SHIN H, LEE J K, KIM J, et al. Continual learning with deep generative replay[C]//Advances in Neural Information Processing Systems. La Jolla, CA: Neural Information Processing Systems Foundation, 2017: 2990-2999.
[64]	MALLYA A, LAZEBNIK S. Packnet: adding multiple tasks to a single network by iterative pruning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 7765-7773.
[65]	SINGH P, VERMA V K, MAZUMDER P, et al. Calibrating CNNs for lifelong learning[C]//Advances in Neural Information Processing Systems. La Jolla, CA: Neural Information Processing Systems Foundation, 2020: 33.
[66]	KIRKPATRICK J, PASCANU R, RABINOWITZ N, et al. Overcoming catastrophic forgetting in neural networks[J]. Proceedings of the National Academy of Sciences, 2017, 114(13): 3521-3526. doi: 10.1073/pnas.1611835114
[67]	EL KHATIB A, KARRAY F. Preempting catastrophic forgetting in continual learning models by anticipatory regularization[C]//2019 International Joint Conference on Neural Networks. Piscataway: IEEE, 2019: 1-7.
[68]	HINTON G, VINYALS O, DEAN J. Distilling the knowledge in a neural network[J]. arXiv, 2015: abs/1503. 02531.
[69]	LI P, SHU C, XIE Y, et al. Hierarchical knowledge squeezed adversarial networkcompression[C]//AAAI. Cambridge, MA: AAAI Press, 2020: 11370-11377.
[70]	SUN S, CHENG Y, GAN Z, et al. Patient knowledge distillation for BERT modelcompression[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2019: 4314-4323.
[71]	WEI Y, PAN X, QIN H, et al. Quantization mimic: towards very tiny CNN for object detection[C]//Proceedings of the European Conference on Computer Vision (ECCV). Berlin: Springer, 2018: 267-283.
[72]	YIM J, JOO D, BAE J, et al. A gift from knowledge distillation: fast optimization, network minimization and transfer learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4133-4141.
[73]	XU J, NIE Y, WANG P, et al. Training a binary weight object detector by knowledge transfer for autonomous driving[C]//2019 International Conference on Robotics and Automation. Piscataway: IEEE, 2019: 2379-2384.
[74]	AHN S, HU S X, DAMIANOU A, et al. Variational information distillation for knowledge transfer[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 9163-9171.
[75]	SHMELKOV K, SCHMID C, ALAHARI K. Incremental learning of object detectors without catastrophic forgetting[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 3400-3409.
[76]	CHEN L, YU C, CHEN L. A new knowledge distillation for incremental object detection[C]//2019 International Joint Conference on Neural Networks. Piscataway: IEEE, 2019: 1-7.
[77]	HOU S, PAN X, CHANGE LOY C, et al. Lifelong learning via progressive distillation and retrospection[C]//Proceedings of the European Conference on Computer Vision. Berlin: Springer, 2018: 437-452.
[78]	CASTRO F M, MARÍN-JIMÉNEZ M J, GUIL N, et al. End-to-end incremental learning[C]//Proceedings of the European Conference on Computer Vision. Berlin: Springer, 2018: 233-248.
[79]	LEE K, LEE K, SHIN J, et al. Overcoming catastrophic forgetting with unlabeled data in the wild[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE, 2019: 312-321.
[80]	MUÑOZ-MARTÍN I, BIANCHI S, PEDRETTI G, et al. Unsupervised learning to overcome catastrophic forgetting in neural networks[J]. IEEE Journal on Exploratory Solid-State Computational Devices and Circuits, 2019, 5(1): 58-66. doi: 10.1109/JXCDC.2019.2911135
[81]	TITSIAS M K, SCHWARZ J, MATTHEWS A G G, et al. Functional regularisation for continual learning with Gaussian processes[J]. arXiv, 2019: abs/1901. 11356.
[82]	CAO Z. Realizing continual learning through modeling a learning system as a fiber bundle[J]. arXiv, 2019: abs/1903. 03511.
[83]	KEMKER R, MCCLURE M, ABITINO A, et al. Measuring catastrophic forgetting in neural networks[J]. arXiv, 2017: abs/1708. 02072.
[84]	VAN DE VEN G M, TOLIAS A S. Three scenarios for continual learning[J]. arXiv, 2019: abs/1904. 07734.
[85]	PFÜLB B, GEPPERTH A. A comprehensive, application-oriented study of catastrophic forgetting in dnns[J]. arXiv, 2019: abs/1905. 08101.
[86]	LOMONACO V, MALTONI D. CORe50: a new dataset and benchmark for continuous object recognition [C]//Proceedings of the 1st Annual Conference on Robot Learning. Brookline, MA: Microtome Publishing, 2017: 17-26.

施引文献(26)

期刊类型引用(4)

1.	李莉，梁正霖. 纪检监察大语言模型：应用场景、算法逻辑及治理挑战. 成都理工大学学报(社会科学版). 2025(03): 1-11 . 百度学术
2.	陈亚当，杨刚，王铎霖，余文斌. 基于提示学习增强BERT的理解能力. 信息技术. 2024(06): 87-93 . 百度学术
3.	肖建平，朱永利，张翼，潘新朋. 基于增量学习的变压器局部放电模式识别. 电机与控制学报. 2023(02): 9-16 . 百度学术
4.	姚光乐，祝钧桃，周文龙，张贵宇，张伟，张谦. 基于特征分布学习的小样本类增量学习. 计算机工程与应用. 2023(14): 151-157 . 百度学术

其他类型引用(22)

资源附件(0)

图(7) / 表(1)

计量

文章访问数: 0
HTML全文浏览量: 0
PDF下载量: 0
被引次数: 26

1. 相关工作
2. 减缓灾难性遗忘问题的方法
2.1 基于样本的方法
2.1.1 直接使用样本的方法
2.1.2 间接使用样本的方法
2.2 基于模型参数的方法
2.2.1 选择性共享参数
2.2.2 参数正则化
2.3 基于知识蒸馏的方法
2.4 其他方法
3. 减缓灾难性遗忘的评价准则
4. 讨论
5. 总结与建议

1. 相关工作
2. 减缓灾难性遗忘问题的方法
2.1 基于样本的方法
2.1.1 直接使用样本的方法
2.1.2 间接使用样本的方法
2.2 基于模型参数的方法
2.2.1 选择性共享参数
2.2.2 参数正则化
2.3 基于知识蒸馏的方法
2.4 其他方法
3. 减缓灾难性遗忘的评价准则
4. 讨论
5. 总结与建议

参考文献(86)

施引文献(26)

资源附件(0)

神经网络模型中灾难性遗忘研究的综述

作者简介: 韩纪东(1992-), 男, 博士研究生, 主要从事深度学习和计算机视觉方面的研究, E-mail: hanjd@emails.bjut.edu.cn

通讯作者: 李玉鑑(1968-), 男, 教授, 博士生导师, 主要从事模式识别与图像处理、机器学习与数据挖掘、人工智能与自然语言处理方面的研究, E-mail: liyujian@guet.edu.cn

计量

出版历程