智能图像识别初探系列(三)
一、神经网络的结构
在上一篇文章中,我们介绍了智能图像识别的前置知识,现在我们就具体来了解下图像处理过程。
我们提到卷积神经网络技术是一种深度前馈神经网络,在图片分类、图片检索、目标检测、目标分割、目标跟踪、视频分类、姿态估计等图像视频相关领域中已有很多较为成功的应用。
与普通的神经网络相比,我们知道卷积神经网络有一些特殊的层,也有一些卷积神经网络中特有的专业名词,比如激活函数、全连接层、卷积层、池化层,下面我们就来一一介绍一下。
1/9
二、激活函数
激活函数的主要作用就是用来加入非线性因素的,以解决线性模型表达能力不足的缺陷,在整个神经网络里起到至关重要的作用。因为在现实中,往往存在非常复杂的线性不可分的情况,比如图中是一个二分类问题,我们要将两类点进行正确的分类会发现这是一个线性不可分的问题,也就是说,在这个平面中,找不到一条直线可以将图中的点完全分开。
2/9
而激活函数的作用就是,在所有的隐藏层之间添加一个激活函数,比如sigmoid函数等常见的激活函数,这样输出的就是一个非线性函数了,有了这样的非线性激活函数后,神经网络的表达能力就会更加强大了。
3/9
三、全连接层
全连接层可以简单地理解为神经网络的一个隐藏层,它包含权重向量W和激活函数。要通过全连接层,首先要将一张图片的数值矩阵进行拉伸,并作为输入乘上权重向量w,再将点乘后的结果作为激活函数的输入,最后激活函数的输出结果便是全连接层的最终结果了。
4/9
四、卷积层
卷积层与全连接层不同,它保留了输入图像的空间特征,即对图像的矩阵结构不做任何改变。
在卷积层中,有一个概念叫做卷积核(kernel),常简称为卷积,有时也称为滤波器filter。卷积的大小可以在实际需要时自定义其长和宽。在上一章节中,我们通过卷积核对图像处理的介绍,知道了卷积的过程,简单来说:让卷积核在输入图片上依次进行滑动,滑动方向从左到右,从上到下;每滑动一次,卷积核就与其滑窗位置对应的输入图片做一次点积计算并得到一个数值。介绍完了卷积层,接下来我们看看什么是卷积神经网络。
五、卷积核
卷积神经网络是由一系列卷积层经过激活来得到的。接下来我们看一种更为通用的卷积形式,在4x4的输入图片周边做1个像素的填充(pad=1),如图所示,步长为1,kernel为2x2的卷积输出的特征层降维。
5/9