【经典网络模型】基于GUI实践AlexNet图像识别与分类-FlyAI

1、简介

《ImageNet Classification with Deep Convolutional Neural Networks》是Hinton和他的学生Alex Krizhevsky在2012 年 ImageNet挑战赛中使用的模型结构，刷新Image Classification 的错误率，从此深度学习方法在Image这块开始一次次超过state-of-art，甚至于搭到打败人类的地步，看这边文章的过程中，发现了很多以前零零散散看到的一些优化技术，但是很多没有深入了解。

2、AlexNet的基本结构

Alexnet总共包括8层，其中前5层CNN卷积层，后面3层是FC全连接层，文章里面说的是减少任何一个卷积结果会变得很差，下面具体讲讲每一层的构成：

第一层卷积层：输入图像为224*224*3的图像，使用了96个kernels（96,11,11,3），以4个Pixel为一个单位来右移或者下移，然后进行Response-Normalized（其实是Local Response Normalized，后面会继续介绍）和pooling，alexnet里面采样了两个GPU，所以从图上面看第一层卷积层厚度有两部分，池化pool_size=(3,3),滑动步长为2个pixels。

第二层卷积层：使用256个（同样，分布在两个GPU上，每个128kernels（5*5*48）），做pad_size(2,2)的处理，以1个pixel为单位移动（感谢网友指出），能够产生27*27个卷积后的矩阵框，做LRN处理，然后pooled，池化以3*3矩形框，2个pixel为步长，得到256个13*13个features。

第三层、第四层：都没有LRN和pool，第五层只有pool，其中第三层使用384个kernels（3*3*256，pad_size=(1,1),得到256*15*15，kernel_size为（3，3),以1个pixel为步长，得到256*13*13）；第四层使用384个kernels（pad_size(1,1)得到256*15*15，核大小为（3，3）步长为1个pixel，得到384*13*13）；第五层使用256个kernels（pad_size(1,1)得到384*15*15，kernel_size(3,3)，得到256*13*13，pool_size(3，3）步长2个pixels，得到256*6*6）。

全连接层：前两层分别有4096个神经元，最后输出Softmax为1000个（ImageNet）。

3、创新型技术提出

3.1、ReLU Nonlinearity

一般来说，刚接触神经网络还没有深入了解深度学习的小伙伴们对这个都不会太熟，一般都会更了解另外两个激活函数（真正往神经网络中引入非线性关系，使神经网络能够有效拟合非线性函数）tanh(x)和(1+e^(-x))^(-1),而ReLU(Rectified Linear Units) f(x)=max(0,x)。基于ReLU的深度卷积网络比基于tanh的网络训练块数倍，下图是一个基于CIFAR-10的四层卷积网络在tanh和ReLU达到25%的training error的迭代次数：

实线、间断线分别代表的是ReLU、tanh的training error，可见ReLU比tanh能够更快的收敛

3.2、Training on Multiple GPUs

这一部分和摘要说的差不多，就是那个图上部分用一个GPU算，下部分用另一个GPU算。

3.3、Local Response Normalization

这部分讲的是局部响应归一化的这个正则化的方法。首先给出它的公式：

(x,y)是神经元(kernel)所在的位置a_(x,y)^i是(x,y)这个位置下经过第i个神经元运算后的结果。k称为偏移量α为放缩的比列系数β同理也是一个影响归一化的超参数中间∑的部分可以理解成这样：保证取相邻的n个神经元（核）来做归一化。

局部归一化的作用是分别减少了top-1 1.4%，top-5 1.2%的错误率。在CIFAR-10数据集上验证了这个方案的有效性：没有归一化的四层CNN取得了13%的错误率，而使用归一化取得了11%的错误率。

3.4、Overlapping Pooling

通俗地讲，重叠池化和普通池化不同的地方就是，重叠池化的步长比核的长和宽都要小，这样就会导致下一步的池化的像素点和上一步的池化的像素点有重叠，故称为重叠池化。CNN中的池化层使用相同的映射函数来总结出神经元相邻组的输出，总结的内容可以是均值，最大值等。一般而言，相邻池化单元的区域是不重叠的。更确切的说，池化层可看作由池化单元网格组成，网格间距为s个像素，这里的s就是step，每个网格归纳池化单元中心位置z×z大小的邻居。如果设置s = z，我们会得到通常在CNN中采用的传统局部池化。如果设置s < z，我们会得到重叠池化。这就是我们网络中使用的方法，设置s = 2，z = 3。这个方案与非重叠方案s = 2, z = 2相比，分别降低了top-1 0.4%，top-5 0.3%的错误率，两者的输出维度是相等的。我们在训练过程发现，采用重叠池化的模型更难以过拟合。

4、Reducing Overfitting实践技术应用

由于神经网络的结构存在6千万个参数尽管ILSVRC的1000类使每个训练样本从图像到标签的映射上强加了10比特的约束，但这不足以学习这么多的参数而没有相当大的过拟合。它使用了两种方式来避免过拟合。

4.1、Data Augmentation数据增强

第一种数据增强方式包括产生图像平移和水平翻转。我们从256× 256图像上通过随机提取224 × 224的图像块（以及这些图像块的水平翻转）实现了这种方式，然后在这些提取的图像块上进行训练，最终的训练样本是高度相关的。没有这个方案，我们的网络会有大量的过拟合，这会迫使我们使用更小的网络。在测试时，网络会提取5个224 × 224的图像块（四个角上的图像块和中心的图像块）和它们的水平翻转（因此总共10个图像块）进行预测，然后对网络在10个图像块上的softmax层的预测结果进行平均。

第二种数据增强方式包括改变训练图像的RGB通道的强度。具体地，我们在整个ImageNet训练集上对RGB像素值集合（一个pixel有三个值RGB也就是（224 * 224）* 3 这么大的矩阵，224 * 224是行数，3是列数），执行主成分分析（PCA）。对于每幅训练图像，我们这个大矩阵的主成分，大小成正比的对应特征值乘以一个随机变量，随机变量通过均值为0，标准差为0.1的高斯分布得到。

4.2、Dropout

Dropout，它会以0.5的概率对每个隐层神经元的输出设为0。那些用这种方式“丢弃”的神经元不再进行前向传播并且不参与反向传播。因此每次输入时，神经网络会采样一个不同的架构，但所有架构共享权重。这个技术减少了复杂的神经元互适应，因为一个神经元不能依赖特定的其它神经元的存在。