听说过很多次玻尔兹曼机,限制性玻尔兹曼机(RBM),深度玻尔兹曼机(DBM),深度置信网络(DBM),以及感知器(perceptron),多层感知器(MLP),深度神经网络(DNN), 在接下来的2篇博客中会详细阐述它们之前的演化及关系,在这篇博客中主要讲述感知器,多层感知器(MLP),深度神经网络(DNN)。
程序说明
首先我们通过程序去理解MLP和logistic regression之间的关系,我们同样使用TensorFlow和keras来演示。如果没有安装的话, 请参考前面的文章文章链接
$ import numpy as np
$ from sklearn.datasets import make_circles
$ from keras.layers import Input, Dense
$ from keras.models import Sequential
$ X, y = make_circles(n_samples=5000, factor=.3, noise=.05)
$ X_train = X[:4000]
$ y_train = y[:4000]
$ X_val = X[4000:]
$ y_val = y[4000:]
$ num_variables = X.shape[1]
$ logreg = Sequential()
$ logreg.add(Dense(output_dim=1, input_dim=num_variables, activation='sigmoid'))
$ logreg.compile(optimizer='adam',loss='binary_crossentropy',metrics=['accuracy'])
$ logreg.fit(X_train, y_train,validation_data=[X_val,y_val],verbose=0)
$ val_score = logreg.evaluate(X_val,y_val,verbose=0)
上面是一个logistic regression实现分类的例子。logistic回归是一种概率的线性分类器。它是参数化的权重矩阵W和偏置向量B分类是将输入向量到一套超平面,每个点对应一个类。从输入到超平面的距离反映了输入是对应类的成员的概率。
$ mlp = Sequential()
$ num_hidden = 128
$ mlp.add(Dense(output_dim=num_hidden, input_dim=num_variables, activation='relu'))
$ mlp.add(Dense(output_dim=num_hidden, input_dim=numhidden, activation='relu'))
$ mlp.add(Dense(output_dim=1, activation='sigmoid'))
$ mlp.compile(optimizer='adam',loss='binary_crossentropy',metrics=['accuracy'])
$ mlp.fit(X_train, y_train,validation_data=[X_val,y_val],nb_epoch=10,verbose=1)
这是一个使用多层感知器实现分类的例子,MLP可以被看作是一个logistic回归分类器,其中输入首先使用非线性变换φ进行转换。这个转换将输入数据投射到一个空间中,它变成线性可分的空间。这个中间层称为隐藏层。单隐层足以使MLP的通用逼近。然而,我们稍后会看到,使用许多这样的隐藏层有巨大的好处,也就是深层学习的前提。
如果我们加入足够的隐藏层,这样就可以看成深度神经网络(DNN)了。
概念理解
感知器(Perceptron)
感知器(Perceptron),是神经网络中的一个概念,在1950s由Frank Rosenblatt第一次引入,是神经网络和支持向量机的基础。.单层感知器(Single Layer Perceptron)是最简单的神经网络。它包含输入层和输出层,而输入层和输出层是直接相连的.
感知器(Perceptron) 是一种用于线性可分数据集的二元分类器算法,这种算法的局限性很大。感知器、logistic与SVM,三者都是线性分类器,而logistic和svm是由感知器发展改善而来的,区别在于三者的损失函数不同:
1.感知器:感知器的损失函数为误分类点的函数间隔之和,函数间隔可以理解为样本与分类超平面的距离。误分类点距离分类超平面越远,则损失函数值越大。只有误分类的点会影响损失函数的值。
$ L=−y(wTx+b)
2.logistic regression: 感知器模型简单直观,但问题在于这个模型不够光滑,比如如果对于一个新的样本点我们计算出ω^T x+b=0.001,只比0大了一点点就会被分为正样本。同时这个点在0处有一个阶跃,导致这一点不连续,在数学上处理起来不方便。
那有没有办法让 ωTx+b 到y的映射变得更加光滑呢,人们发现logistic函数有着这样的特性,输入范围是−∞→+∞,而值域光滑地分布于0和1之间。于是就有了logistic回归,正样本点分类的超平面距离越远,ωTx+b 越大,而logistic函数值则越接近于1。负样本点分类的超平面距离越远,ωTx+b 越小,而logistic函数值则越接近于0。
Logistic回归的损失函数为logistic损失函数,当分类错误时,函数间隔越大,则损失函数值越大。当分类正确时,样本点距离超平面越远,则损失函数值越小。所有的样本点分布情况都会影响损失函数最后的值。
$ log(1+exp(−y(wTx+b)))
3.svm: 增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。SVM的处理方法是只考虑support vectors,也就是和分类最相关的少数点,去学习分类器。而逻辑回归通过非线性映射,大大减小了离分类平面较远的点的权重,相对提升了与分类最相关的数据点的权重。两者的根本目的都是一样的。此外,根据需要,两个方法都可以增加不同的正则化项,如l1,l2等等。所以在很多实验中,两种算法的结果是很接近的。
多层感知器(MLP)
多层感知器(Multi-Layer Perceptrons),包含多层计算。相对于单层感知器,输出端从一个变到了多个;输入端和输出端之间也不光只有一层,现在又两层:输出层和隐藏层。训练MLP多采用反向传播学习模型(BP算法),计算输出节点的总误差,并将这些误差用反向传播算法传播回网络,以计算梯度。接下来,使用类似梯度下降之类的算法来调整网络中的所有权重,目的是减少输出层的误差。
深度神经网络(DNN)
多层感知机给我们带来的启示是,神经网络的层数直接决定了它对现实的刻画能力——利用每层更少的神经元拟合更加复杂的函数.
即便大牛们早就预料到神经网络需要变得更深,但随着神经网络层数的加深,优化函数越来越容易陷入局部最优解,并且这个“陷阱”越来越偏离真正的全局最优。利用有限数据训练的深层网络,性能还不如较浅层网络。同时,另一个不可忽略的问题是随着网络层数增加,“梯度消失”现象更加严重。具体来说,我们常常使用sigmoid作为神经元的输入输出函数。对于幅度为1的信号,在BP反向传播梯度时,每传递一层,梯度衰减为原来的0.25。层数一多,梯度指数衰减后低层基本上接受不到有效的训练信号。
2006年,Hinton利用预训练方法缓解了局部最优解问题,将隐含层推动到了7层,神经网络真正意义上有了“深度”,由此揭开了深度学习的热潮。这里的“深度”并没有固定的定义——在语音识别中4层网络就能够被认为是“较深的”,而在图像识别中20层以上的网络屡见不鲜。为了克服梯度消失,ReLU、maxout等传输函数代替了sigmoid,形成了如今DNN的基本形式。单从结构上来说,全连接的DNN和多层感知机是没有任何区别的。
深度神经网络的局限和发展
1.全连接DNN的结构里下层神经元和所有上层神经元都能够形成连接,带来的潜在问题是参数数量的膨胀。假设输入的是一幅像素为1000x1000的图像,隐含层有1M个节点,光这一层就有10^12个权重需要训练,这不仅容易过拟合,而且极容易陷入局部最优。另外,图像中有固有的局部模式(比如轮廓、边界,人的眼睛、鼻子、嘴等)可以利用,显然应该将图像处理中的概念和神经网络技术相结合。此时我们可以祭出题主所说的卷积神经网络CNN。对于CNN来说,并不是所有上下层神经元都能直接相连,而是通过“卷积核”作为中介。同一个卷积核在所有图像内是共享的,图像通过卷积操作后仍然保留原先的位置关系。CNN中还有max-pooling等操作进一步提高鲁棒性。
2.全连接的DNN还存在着另一个问题——无法对时间序列上的变化进行建模。然而,样本出现的时间顺序对于自然语言处理、语音识别、手写体识别等应用非常重要。对了适应这种需求,就出现了题主所说的另一种神经网络结构——循环神经网络RNN。在RNN中,神经元的输出可以在下一个时间戳直接作用到自身,即第i层神经元在m时刻的输入,除了(i-1)层神经元在该时刻的输出外,还包括其自身在(m-1)时刻的输出!RNN可以看成一个在时间上传递的神经网络,它的深度是时间的长度!正如我们上面所说,“梯度消失”现象又要出现了,只不过这次发生在时间轴上。对于t时刻来说,它产生的梯度在时间轴上向历史传播几层之后就消失了,根本就无法影响太遥远的过去。为了解决时间上的梯度消失,机器学习领域发展出了长短时记忆单元LSTM,通过门的开关实现时间上记忆功能,并防止梯度消失。