相关文章推荐

鼻子大的小狗 · OAuth2实现单点登录SSO完整教程，其实 ...· 6 天前 ·

呐喊的煎鸡蛋 · 【深度学习系列】迁移学习Transfer ...· 3 周前 ·

呐喊的煎鸡蛋 · 迁移学习| 机器之心· 3 周前 ·

呐喊的煎鸡蛋 · 什么是迁移学习（Transfer ...· 3 周前 ·

呐喊的煎鸡蛋 · transferlearning/doc/迁 ...· 3 周前 ·

呐喊的煎鸡蛋 · 什么是迁移学习（Transfer ...· 3 周前 ·

在前面的文章中，我们通常是拿到一个任务，譬如图像分类、识别等，搜集好数据后就开始直接用模型进行训练，但是现实情况中，由于设备的局限性、时间的紧迫性等导致我们无法从头开始训练，迭代一两百万次来收敛模型，所以这个时候迁移学习就派上用场了。

什么是迁移学习？

迁移学习通俗来讲，就是运用已有的知识来学习新的知识，核心是找到已有知识和新知识之间的相似性，用成语来说就是举一反三。由于直接对目标域从头开始学习成本太高，我们故而转向运用已有的相关知识来辅助尽快地学习新知识。比如，已经会下中国象棋，就可以类比着来学习国际象棋；已经会编写Java程序，就可以类比着来学习C#；已经学会英语，就可以类比着来学习法语；等等。世间万事万物皆有共性，如何合理地找寻它们之间的相似性，进而利用这个桥梁来帮助学习新知识，是迁移学习的核心问题。

为什么需要迁移学习？

满足深度学习训练数据量的数据太少。对于一个机器学习的任务，譬如分类，如果数据量过小，我们是否一定要上深度学习呢？其实不必然。如果在实际的生产过程中，能够用规则就能得到好的效果的就用规则，能够用简单的模型就用简单的模型，我们常听到的“奥卡姆剃刀”其实就是这个意思，减少模型的复杂度，能够从某种程度上避免过拟合的情况。那么对于小量数据集，没有必要一定需要用深度学习的方法来做。同样，如果要对一个新任务分类，或者识别，搜集不了大量的正负样本，怎么训练呢？

新数据集相比于原数据集更小但内容很不相同。由于数据较小，只训练一个线性分类器可能更好。因为数据集不同，从网络顶部就开始训练分类器可能不是最好的选择，这包含更多的数据集特定特征。另外，从网络前部的激活函数开始训练分类器可能更好一点。

新数据集相比于原数据集较大，但内容非常不同。由于数据集很大，我们可能会期望从头开始训练一个 DCNN。然而，在实践中从一个预训练模型开始初始化权重仍然是一种有益的方法。在这种情况下，我们会有足够的数据和信心对整个网络进行微调。

如何做迁移学习？

在实践中，我们通常不会完全从头开始随机初始化训练 DCNN，这是因为有能满足深度网络需求的足够大小的数据集相当的少见。作为代替，常见的是在一个大型数据集上预训练一个 DCNN，然后使用这一训练的 DCNN 的权重作为初始设置或作为相关任务的固定的特征提取器。举个例子，我们知道Imagnet是目前最大的图像识别数据库，目前已经有很多基于imagenet数据训练的网络模型，如inceptionv3、v4等，假如现在给你一个任务，希望你能做一个车系识别，你有两个选择：

一是搜集大量的车系数据，对这些车系数据进行模型训练；

二是基于imagenet训练好的网络模型，然后把搜集好的车系数据加到基于之前训练好的模型继续训练，进行fine-tuning。

传统的做法都是第一种，但是这就会遇到一个问题，一是车系的图片够不够多，体量够不够大？如果数据量不够，最后训练的效果会不会很不好？其实我们可以通过把ImageNet 或其他大型数据集学习到的网络特征运用于一个图片分类或其他基于图片特征的任务，这就是迁移学习的思想。其实可以这样理解，如果从零开始训练，那么初始化权重一般情况下要么是都为0，要么随机设置，当我们导入了在大规模数据集上训练好的模型后，相当于在以这个模型现有的参数作为初始化的权重，不过至于在具体的任务上的泛化能力如何，还是得看具体的场景。

迁移学习的限制

上文提到我们在迁移学习中会使用预训练的网络，所以我们在模型架构方面受到了一点点限制。比如说，我们不能随意移除预训练网络中的卷积层。但由于参数共享的关系，我们可以很轻松地在不同空间尺寸的图像上运行一个预训练网络。这在卷积层和池化层和情况下是显而易见的，因为它们的前向函数（forward function）独立于输入内容的空间尺寸。在全连接层（FC）的情形中，这仍然成立，因为全连接层可被转化成一个卷积层。所以当我们导入一个预训练的模型时，网络结构需要与预训练的网络结构相同，然后再针对特定的场景和任务进行训练。

迁移学习的相关资料

对迁移学习感兴趣的同学，可以关注这个github repo： transferlearning ，以及王晋东写的系列文章：

《小王爱迁移》系列之零：迁移学习领域著名学者和研究机构

《小王爱迁移》系列之一：迁移成分分析(TCA)方法简介

《小王爱迁移》系列之二：联合分布适配(JDA)方法简介

《小王爱迁移》系列之三：深度神经网络的可迁移性

《小王爱迁移》系列之四：深度适配网络（DAN）

《小王爱迁移》系列之五：测地线流式核方法（GFK）

《小王爱迁移》系列之六：学习迁移（Learning To Transfer）

《小王爱迁移》系列之七：负迁移（Negative Transfer）

《小王爱迁移》系列之八：深度迁移学习文章解读

《小王爱迁移》系列之九：开放集迁移学习(Open Set Domain Adaptation)