读论文——AlexNet

wuchangjian2021-11-15 19:50:09编程学习

第一遍

  • 标题:ImageNet Classification with Deep Convolutional Neural Networks

  • 摘要

    • 问题(数据集):ImageNet,1.2百万图片,1000类
    • 方法:大的深度卷积模型,6千万参数,65万神经元
    • 模型:5个卷积层、最大池化层、3层全连接和softmax层、dropout层
    • 结果:top-1和top-5错误率为 37.5 % 37.5 \% 37.5% 17.0 % 17.0 \% 17.0%
  • 结论/讨论

    • 深层卷积神经网络,通过监督学习,可以完成很复杂的建模
    • 网络的深度对最后的top-1精度影响很大
    • 展望:
      • 希望在视频序列中使用深度卷积神经网络,时间结构提供了非常有用的信息
  • 关注图表

    • ReLU(Fig 1)

    • 这是一个比tanh快约6倍的激活函数
      ReLU

    • 网络结构图(Fig 2)

      模型结构

      • 双GPU训练
      • 前两层卷积层用到了(归一化和池化),最后一层卷积层也用到了池化
    • 第一层卷积后的特征图(Fig 3)

      在这里插入图片描述

    • 结果对比

      • 比较ILSVRC-2010上的结果

        在这里插入图片描述

      • 比较在ILSVRC-2012验证集和测试集上的错误率(表2)

        在这里插入图片描述

    • 结果量化

      在这里插入图片描述

      • 左图显示top-5预测结果,图片下方表示正确结果,下面柱状图表示预测结果
      • 右图的第一列是五张训练集图片,剩余的六列是在测试集中的六张图片。它们通过卷积神经网络输出的特征向量在欧几里得空间中是最近的。
    • 值不值得读?

      • 深度卷积神经网络开山之作
      • ReLU
      • Dropout

第二遍

  • 精读每个图
    • ReLU非线性
      • 饱和非线性和非饱和非线性区别:
        • 饱和相较于非饱和会将输入值压缩
      • ReLU: m a x ( 0 , x ) max(0,x) max(0,x)
      • sigmoid: 1 1 + e − x \frac{1}{1+e^{-x}} 1+ex1
      • tanh: e x − e − x e x + e − x \frac{e^x-e^{-x}}{e^x+e^{-x}} ex+exexex
    • 网络结构图
    • 卷积特征图
    • 结果量化图
  • 精读每个表
    • 结果比较表
  • 圈出相关文献
    1. Rectified linear units improve restricted boltzmann machines
    2. High-performance neural networks for visual object classification

第三遍

  • 什么问题?

    • 目标识别需要大的数据集
    • 需要好的模型cover大的数据集
    • CNN更少的参数、更快的训练速度、稳定的统计性、像素依赖
  • 什么方法?

    • 多层卷积神经网络

    • 重要公式:

      • R e L U = m a x ( 0 , x ) ReLU = max(0,x) ReLU=max(0,x)

      • Local Response Normalization :
        b x , y i = a x , y i / ( k + α ∑ j = m a x ( 0 , i − n / 2 ) m i n ( N − 1 , i + n / 2 ) ( a x , y j ) 2 ) β b_{x,y}^i = a_{x,y}^i / (k + \alpha\sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)}(a_{x,y}^j)^2)^\beta bx,yi=ax,yi/(k+αj=max(0,in/2)min(N1,i+n/2)(ax,yj)2)β

  • 怎么实验?

    • 数据增强1

      • resize 256x256
      • 水平翻转
      • 分别在中心以及四周取5个样
    • 数据增强2

      • 改变RGB通道的强度
    • dropout

      • 前两个全连接层使用dropout
    • 优化器

      • 优化公式:
        v i + 1 : = 0.9 v i − 0.0005 ϵ w i − ϵ ⟨ ∂ L ∂ w ∣ w i ⟩ D i w i + 1 : = w i + v i + 1 v_{i+1} := 0.9v_i - 0.0005\epsilon w_i - \epsilon {\langle \frac{\partial L}{\partial w} |w_i \rangle }_{D_i} \\ w_{i+1} := w_i + v_{i+1} vi+1:=0.9vi0.0005ϵwiϵwLwiDiwi+1:=wi+vi+1
  • 为什么?

    • 卷积核的使用
    • 网络层数增加
      {\partial L}{\partial w} |w_i \rangle }{D_i} \
      w
      {i+1} := w_i + v_{i+1}
      $$
  • 为什么?

    • 卷积核的使用
    • 网络层数增加
    • 数据增强方法

有问题欢迎留言讨论。

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。