您好,欢迎来到爱问旅游网。
搜索
您的当前位置:首页基于稀疏自动编码器的近重复视频检索

基于稀疏自动编码器的近重复视频检索

来源:爱问旅游网
数据库技术・Data Base Technique 基于稀疏自动编码器的近重复视频检索 文/王飞飞 的视频内容表示算法和相似性度量的选取。 随着互联网的迅速发展,网 络上产生了大量的近重复视频, lnput Laye ̄r tput Laye1" 本文提出一种用稀疏自动编码器提取关 键帧特征的方法,并将该方法用于近重复视频 如何快速精确地检测出这些近重 复视频成为研究的热点。本文提 的检测,取得了较好的检测准确度。 出了一种基于稀疏自动编码器的 视频特征提取模型,用于近重复 2相关概念 视频检索。先用稀疏自动编码器 提取视频关键帧的特征,然后根 据视频间匹配的关键帧数占视频 2.1深度学习 所有关键帧数的比例来度量视频 的相似性。实验结果表明所提出 深度学习的概念由Hinton等人于2006年 的方法取得了较好的检索精度。 提出,它是机器学习研究中的一个新的领域, 其动机在于建立和模拟人脑进行分析学习的神 经网络,它模仿人脑的机制来解释数据,例如 【关键词】深度学习自编码器网络视频近 图像理解,语音识别和自然语言处理等。深度 重复视频检索 学习中的无监督学习方法,可以通过对深层非 线性网络结构的学习,实现对复杂函数的逼近, 从而实现对输入数据的分布式表示,具有从少 数样本中提取本质特征的强大能力。 1引言 自动编码器(AE)作为深度学习的基本模 随着视频分享网站(如YouTube、优酷、 型之一,可以捕捉输入数据中的重要特征,使 土豆网等)的出现,互联网上的视频数量和种 训练后的数据可以无限逼近输入数据。为了学 类爆炸性地增长。用户可以通过手机、摄像机 习更复杂的非线性函数,在自动编码器的基 制作视频或者从网上获取视频,在做过一些改 础上添加稀疏性约束,得到稀疏自动编码器 动后重新发布到网上。根据YouTube 2009年 (SAE),它可以通过学习得到更好的特征表示。 5月的统计数据显示,每分钟大约有20小时 2.2稀疏自动编码器 的新视频上传到该网站,曰均浏览量超过2亿 次。而到2012年,每天每秒就有长达一小时 稀疏自动编码器是一种无监督的学习方 的视频上传到YouTube,并且日均浏览量达到 法,通过前向传播构建网络结构,采用梯度下 40亿次。但是在这些海量的网络视频中,存 降的方法调整权重,利用反向传播算法实现目 在着大量重复的或者近似重复的视频。Wu等 标值逼近输入值,它是用于降维和特征提取的 人通过24个关键词对YouTube、Google Video 神经网络,可以提取数据中最主要的隐藏特征 和Yahoo!Video三个常用视频搜索引擎的搜 (特征的个数通过隐藏节点数确定)。稀疏自 索结果进行分析,发现在搜索结果中平均存在 动编码器(SAE)是以人工神经网络为基础构 27%的重复或近似重复的视频。对于某些特定 建而成的网络,因此稀疏自动编码器可以认为 的查询,重复率甚至高达93%。这些大量重复 是一种双层神经网络,第一层是由输入层和中 的视频不仅浪费了存储空间,也给视频的有效 间隐层节点组成的编码层,第二层是由中间隐 管理带来不便。而且,用户在网络上搜索感兴 层和输出层节点组成的编码层,其中编码层输 趣的视频时返回过多的重复结果,大大降低了 入节点的个数与解码层输出节点的个数相等。 用户体验。因此为了提高网络视频的管理、搜 稀疏自动编码器(SAE)的神经网络结构 索及浏览效率,高效的视频重复检测方法就显 包括有m个节点的输入层x={x1,x2,…,x ),n 得十分必要。 个节点的中间隐层z={z ,z:,…,z },和m个节 现有的近重复视频检索方法多分为如下3 点的输出层y={y ,y2,…,Y }。Y是通过隐层节 个步骤:首先,从每个视频中提取一系列的关 点Z对x进行的重构,其中隐层的维数比输入 键帧,用这些关键帧代表一个视频;然后,对 层小,即n<m。其模型如图1所示。 每一个视频关键帧采用特征提取算法生成一组 其中,相邻两层节点之间边的权重用矩阵 特征向量;最后,通过关键帧的特征向量计算 w‘’ ={w ”1l,W ”l2,…IW‘”nm}和W ={w ll,W 12,… 视频之间的相似度 关键帧的特征表示又分为 ,W(2)nm)表示,其中W ji表示输入层第i个 两类:全局特征和局部特征,分别对应于不同 节点与隐层第j个节点之间的权重。隐层和 194・电子技术与软件工程Electronic Technology&Software Engineering 图1:SAE神经网络模型 输出层的偏置项用b“ ={b l,b ,…,b ’ }和 b‘ {b。 l,b。 ,…,b。 }表示,其中b 。是隐层 第J个节点的偏置值。隐层第J个节点的输入 值定义为公式(1): 弓 ” ” (1) 其中,每个隐层节点的输出值aj是通过 sigmoid激活函数f(z)的线性表示,即f(z)=l/ (1+e。 ,aj=f(zj)。输出层的值Y,可表示为公 式(2): y=∑略 1 aj+6 … \‘/ 3基于自编码的近重复视频检索 信息检索的任务,是对用户输入的一个 对象,按与输入相关程度输出排序后的一系列 对象。对于近重复视频检索系统,其步骤如下: 3.1关键帧抽取 给定视频数据集v,对于数据集中的每一 个视频采用基于镜头的关键帧抽取方法抽取关 键帧。假设从视频数据集V中抽取了n个关 键帧,接下来就是针对这n个关键帧提供的信 息做进一步的处理 3.2特征提取 用上一步得到的一部分关键帧对自编码 器神经网络进行训练,得到训练好的自编码器 网络模型。然后,将每一个关键帧作为自编码 器的输入,得到编码后的结果,将此结果作为 该关键帧的特征表示。 Data Base Technique・数据库技术 表1:利用24个查询从YouTube、GoogleVideo和Yahoo!Video上搜索到的视频集 因此,两个关键帧s 和Si之间的相似性 本文采用的是网络视频近似重复检索 出 d(s.,sj)可以使用对应的特征向量的欧式距离 所常用的一个公开数据集,即CC WEB 篝 表示: d( , ):d( ,弓)=J∑:~ : @ —y ) (3j)/ 其中,F =(x。,x2,…,)【d)和Fj=(y ,Y2,…,yd) 为两个关键帧的特征向量。 3.3视频相似性度量 提取视频每个关键帧的特征后,就可以 比较两个关键帧的相似性。而两个视频间匹配 的关键帧越多,则这两个视频越相似。为了更 好地定量分析,对视频的相似性作如下定义: 假设Vq={s ql,sq2,…,sq j表示查询视频, 包含m个关键帧;Vd={Sd】,Sd2,…,Sdl,)表示数 据库中的一个视频,包含n个关键帧。那么视 频V 和Vd之间的相似性R(Vq,V )可以表示 R(Vq,Vd): IVq‘ l 4. )/2 (4) 当上式超过给定的阈值,则称v口和vd 是重复视频。其中s 为视频V。中的任意关 键帧,lV 1是视频V 中关键帧的个数,函数 a(s。 ,vd)是个逻辑函数,即视频vd中是否存 在与关键帧s 相匹配的关键帧,若查询视频 V 中的关键帧Sqk在视频V 中存在相匹配的 镜头,其函数值为1,否则为0,即: ):(1.i ndh(…Sqk,Sa 。 ̄ (5) 其中,T为一个给定的经验阈值,即当查 询视频v口中的关键帧Sqk与视频Vd中最相似 的关键帧S 距离不大于T时,则这两个关键 帧相匹配。 4实验与分析 为了评价本文方法的有效性,在本章中 将给出本文方法及一些其他现有方法的实验结 果,包括视频数据集和评价方法的介绍。实验 表明,本文方法在指定数据集上取得了较好的 近重复视频检测效果。 4.1视频数据集 VIDEO数据集。CC WEB VIDEO是由香 (9) 港城市大学和卡内基梅隆大学提供的。它 4.3实验结果 通过使用24个关键词(“The lion sleeps tonight”,“Evolution ofdance”,“Fold shirt”等) 为了评价检索效果,本节将对我们提出 在YouTube、Google Video和Yahoo!Video上 的方法与现有的典型方法进行比较,即基于 搜索并下载得到,一共有12790个视频。对于 HSV颜色直方图全局特征的近重复视频检索 每组视频,最流行的视频被用做查询视频,然 方法以及全局特征和局部LBP特征结合的近 后人工对剩余视频进行标注,即标注成相似的 重复视频检索方法。我们做了三个对比实验, 或不相似的。查询关键词和近似重复视频的个 分别是: 数如表1所示。例如对于查询“The lion sleeps (1)基于全局签名的方法(Sig—CH): tonight”,一共有792个视频,其中有334个 该方法使用HSV颜色直方图作为视频关键帧 视频与查询视频重复或近似重复。 的特征,将一个视频所有关键帧特征的平均值 4.2评价方法 作为该视频的全局签名。在这里简称这种方法 为GF方法。 本文中针对上述实验数据采用了查全率一 (2)基于局部特征的分层比较方法:该 查准率曲线和平均准确率(MAP)两种评价 方法首先使用颜色直方图检测出很大概率与被 标准。查全率(Recal1).查准率(Precision) 检视频重复的视频并过滤掉极度不相似的视 曲线是比较常用的一种评价检索结果的方法。 频,在使用基于LBP局部特征的关键帧比较 查全率也称召回率,指相关的文档检索出的越 方法检测出其它近重复视频。在这里简称这种 多越好,也就是返回的结果中相关的个数占全 方法为HF方法。 部相关结果的个数;查准率也称准确率,是指 (3)基于深度学习稀疏自动编码器的方 检索出的结果中,相关文档的个数越多越好, 法:即本文使用的方法。 也就是返回的结果中相关的个数占检索到的所 本文从MAP值和P—R曲线分析算法。 有结果的比例。查全率和查准率的公式分别为 MAP值的比较见表2所列,P—R曲线的比较 如图2所示。 查样= ㈤ 表2:MAP值的比较 查准率= 返回的相关结果数 方法 MAP 平均准确率(MAP)反映的是系统在检 GF 0.892 LF 0.952 索全部的和主题相关的文档的性能指标。一般 本文方法 0.955 情况下,如果系统检索出的相关文档排序越靠 从表2中可以看出,本文方法的MAP值 前,系统的平均准确率(MAP)就越高;如 结果最好。从图2中可以看出GF在这些方法 果没有检索到任何的相关的文档,则MAP值 中效果最差,本文方法效果最好,LF方法效 为零。求解公式如下: 果次之。 M (q) Prec n(%)(8) 5结束语 其中,q表示查询集,N表示查询集的个 本文利用深度学习中的稀疏自编码器模 数,rna表示相关文档的个数,Precision(R ̄)表 型,自动地从视频关键帧中学习图像的特征, 示返回的结果中第J个相关文档在返回结果的 将学习到的特征应用于近重复视频检测任务 位置与该文档在返回结果中的位置,即 上,并将该方法与基于视频全局HSV颜色直 Electronic Technology&Software Engineering电子技术与软件工程・195 数据库技术・Data Base Technique 方图的方法以及全局特征与局部LBP特征相 结合的方法进行了比较。实验表明,本文提出 的方法近重复视频检测的效果要优于其它两种 方法,具有较好的检索准确性。 参考文献 [1】wiki pedia。YouTube[EB/OL】.httP:// el1.wikipedia.org/wiki/Youtube. [2】Wu X,Ngo C W,Hauptmann A G,et a1. Real—Time Near—Duplicate E1iminatio13 for Web Video Search Wi th Content and Context[J】.IEEE Transactions on Multimedia,2009,11(02):196—207. (a)GF方法 [3】WU X i ao,NGO C,HAUPTMANNA.CC—WEB— VIDEO:nea r—duPl i c at e Web vi deo d at a s et【EB/0L】.htt P://vi r e o. cs.cityu.edu hk/webv i deo/ O s nde ro S.Teh Y W.A [4】Hinton G E. fa st 1 earni  gorithm for deeP ng a1belief Ret s. [J】L ComputatiOll,  Neura 2006.1 8(07):1 52 7—1554. [5]王雅思.深度学习中的自编码器的表达能 力研究【D].哈尔滨工业大学,2014. [6】Coate s A,Ng A Y.The Importaflce of Encoding Ver SUS Training with Spar se Coding and Vector Ouantization【C】// Internat ional Conference on Machine L e a r n i n g,I CML 2 01 1,Be 1 l e vu e, Wa s hi n gt on,U SA,Jun e 2 8~Ju1 Y. 20l1:921—928. (b)LF方法 [7]Baccouche M,Mamai et F,Woif C,et a1.Spatio-Temporal Convo1uti ona1 Spa r se Auto-Encoder for Sequence C1 a s sifi cati on[J】.Netwo rk s,2 01 2, 18(O5). 【8】Coates A,Ng A Y,Lee H.An Analysis of Si n gI e—L a Y e r Netwo r k s i n Un supervi sed Feature Learning[J】. 1ourna1 of Machine Learning Research, 2 011(1 5):21 5-223. [9]Mukherjee S,Ashi sh K,Hui N B,et a1. Modeling Depres sion Data:Feed Forward Neu r a1 Netwo1 k v s。Radi al Ba si s (c)本文方法 图2:各方法检索实验结果 Search for Copy Detect ion[C]//ACM Si gmm Iflt ernati onaI Wo rk shop on Multimedia InformRtion Ret rieva1. Mi r 2 0 04,Octobe r I 5—1 6,2 0 04,New Multimedia.ACM.2007:21 8-227 Function Neura1 Network[J].American Journa1 Of Biomedica1 Sciences.2 014. [1 0]Needell D,S r eb r o N,w a rd R. Stocha stic gradient descent,weighted samp1 ing,and the randomized Kaczmarz 作者简介 王飞飞(1 991-),男,安徽省阜阳市人。硕 York,Ny,Usa.2004:61—68. 士研究生学历。研究方向为深度学习。 a1gorithm【J】.Mathematical Programmi ng,201 6,1 55(O1):549—573. 【i 2】wu X,HauPtmann A G,N g o C W. P ra cti cal eliminati on of nea r— 作者单位 合肥工业大学安徽省合肥市2 30009 [11】Yuan J,Duan L Y,Ti an Q,et a1. Fa st and Robu st Short Vldeo C1i P dupI icates from web video search[C】// ACM 1nt efnatl ona1 Confe rence on 196・电子技术与软件工程Electronic Technology&Software Engineering 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- awee.cn 版权所有 湘ICP备2023022495号-5

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务