为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

时空域深度卷积神经网络及其在行为识别上的用途

2018-03-30 3页 doc 14KB 24阅读

用户头像

is_036899

暂无简介

举报
时空域深度卷积神经网络及其在行为识别上的用途时空域深度卷积神经网络及其在行为识别上的用途 引言 从视频中学习人类行为是一项有挑战性的机器视觉任务,近年来受到了研究人员的关注。静态图像识别只需要对一张图像中的静态特征进行学习,行为识别则需要对视频中帧与帧之间的运动特征进行学习。视频识别不仅需要考虑空间域(视频的单帧、静态图像)上相邻象素之间的相互关系,还需要考虑时间域上相邻帧之间的相互关系,加之视频的数据量比单个图像大得多,所以算法复杂性和时间复杂性都较高,行为识别的困难性来源于此。当前,尚无一种较为完善的算法能够有效、鲁棒地将人类行为视频准确分类。3实验和讨...
时空域深度卷积神经网络及其在行为识别上的用途
时空域深度卷积神经网络及其在行为识别上的用途

引言

从视频中学习人类行为是一项有挑战性的机器视觉任务,近年来受到了研究人员的关注。静态图像识别只需要对一张图像中的静态特征进行学习,行为识别则需要对视频中帧与帧之间的运动特征进行学习。视频识别不仅需要考虑空间域(视频的单帧、静态图像)上相邻象素之间的相互关系,还需要考虑时间域上相邻帧之间的相互关系,加之视频的数据量比单个图像大得多,所以算法复杂性和时间复杂性都较高,行为识别的困难性来源于此。当前,尚无一种较为完善的算法能够有效、鲁棒地将人类行为视频准确分类。3实验和讨论为了测试时空域深度卷积神经网络的性能,基于Python的深度学习库 Theano实现了基于 GPU 并行加速的算法代码,并在1个合成的数据集和1个行为识别数据集上验证了算法的有效性。有别于手工

特征的传统算法,实验并没有采用先将时空域特征矢量化,再用支持向量机进行分类的流程,而是先在P层后面接上传统卷积神经网络的卷积层和池化层以便用深度建模来代替矢量化建模;再接上全连接层,此层的每个节点都与上层的全部输出映射相连接,以便将网络学到的时空域特征映射为一个一维特征向量;最后,再接上softmax分类层,此层的每个节点与上层的所有节点相连接,节点的数量等于要分类的类数目,每个节点的输出值等于该类的概率。在网络的训练阶段,行为视频中的每5对相邻帧被同时输入。为了在特征抽取阶段学习更能代表每个分类的特征,使用了基于有监督训练的反向传播算法来学习网络的参数(权重和偏置),使用交叉熵作为目标函数,采用基于小批量(min-batch)策略的随机梯度下降算法来更新参数,并对相邻帧组成的数据集进行随机排序,以保证每次迭代时采用的小批量数据能达到类均衡。使用时空域深度卷积神经网络训练后得到的卷积层滤波器可以被可视化,图3(c)、(d)显示了16个随机挑选的滤波器可以清楚地看到图中每两个滤波器构成一个相位差为90°的傅里叶基函数对,如图3(c)中的第一行第一个和第二个滤波器。还可以发现旋转变换的滤波器为了提取旋转运动信息而呈现出一种花环状。平移和旋转两种运动有着完全不同的滤波器,说明了本文的时空域深度卷积神经网络的确学到了运动信息。3.2KTH数据集在人类行为识别领域,KTH数据集是使用较为广泛的测试集。由4种场景下的25个人分别作出6种动作:走、慢跑、跑、拳击、挥手、拍手,共录制了2391个短视频。使用其中8个人的视频作为训练集,8个人的视频作为验证集,9个人的视频作为测试集。图4(a)、(b)显示了其中的两个动作:拳击、慢跑。时空域深度卷积神经网络在此实验中的各项参数为:输入视频保持25fps的帧率,视频尺寸保持160*120,C层有64个尺寸为18*18的卷积核,第二个卷积层有256个大小为9*9的卷积核,全连接层有500个节点,小批量数据集的容量为128个相邻帧,其他超参数用交叉验证法确定。图4(c)、(d)分别显示了训练后图像x和图像y对应的16个随机选择的滤波器,可以发现在自然数据集上,时空域深度卷积神经网络学习到的特征具有Gabor滤波器的特性,即不同的滤波器对于位置、频率、方向和相位有着不同的选择性。(a)拳击 (b)慢跑(c)图像x的滤波器 (d)图像y的滤波器图4KTH数据集和滤波器图5显示了网络在 KTH 数据集上的混淆矩阵(Confu-sionmatrix),行代表正确的类别,列代表算法的分类结果。从图中可以发现总体识别率较好,在挥手、拍手、拳击3类上的错误率比走、慢跑、跑3类稍高,而这也与我们的直觉相似,因为人类要正确判断这3个类也稍显困难。图5KTH数据集的混淆矩阵图6是时空域深度卷积神经网络与其他6种算法的平均正确率的比较,可以看出时空域深度卷积神经网络在6类上的平均正确率为 95.1%,优于基于深度卷积神经网络的GRBM、深度神经网络的ISAMODEL,也优于另外3个手工设计特征的传统算法:HOG3D、HOG/HOF、BoW-MKL。图66种算法的正确率 结束语 本文提出时空域深度卷积神经网络,将类似于傅里叶基函数滤波器的卷积核引入传统深度卷积神经网络中,通过卷 积层分组、乘积层、加法层将相邻帧映射到不变子空间中,从而得到相邻帧之间的运动特征和内容特征。此网络可显性地学习运动特征,克服了原深度卷积神经网络在行为识别上效果差的问,基于卷积层的特征抽取方法能更好地处理大尺寸图像,还减少了参数,提高了训练效率,有监督训练使学到的特征具有更强的分类判别性。理论分析与实验结果都表明,此网络在基准测试数据集上的正确率较高,可以广泛应用于需要捕捉图像序列间相互关系的视觉任务中,如人类行为识别、双目视觉深度图、视频跟踪

://www.slstrip.cn/yjgl/show/192 ://www.slstrip.cn/yjgl/show/194 ://www.slstrip.cn/yjgl/show/196 ://www.slstrip.cn/yjgl/show/198 ://www.slstrip.cn/yjgl/show/200 ://www.slstrip.cn/yjgl/show/202 ://www.slstrip.cn/yjgl/show/204 ://www.slstrip.cn/yjgl/show/206 ://www.slstrip.cn/yjgl/show/208 ://www.slstrip.cn/yjgl/show/210
/
本文档为【时空域深度卷积神经网络及其在行为识别上的用途】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索