[摘 要]针对单机处理海量视频效率低等问题,本文自主设计了基于Hadoop集群的视频并行化处理系统并建立了试验床。重新设计了专门针对非结构化视频数据的MapReduce并行计算框架及相关的键值对和输入输出格式。实验结果表明,Hadoop集群比较适合大数据的视频处理,Hadoop集群并行化处理技术提高了行人检测与跟踪算法效率。 [关键词]Hadoop MapReduce 视频处理 并行处理 中图分类号:TP751;TP311.11 文献标识码:A 文章编号:1009-914X(2014)28-0017-01 0 引言 近年来,随着平安城市、行业安防等项目的大规模建设,视频数据爆炸式增长,意味着传统集中式视频处理方法无法在这些庞大的视频数据中快速寻找到有价值的信息。本文构建了一个基于Hadoop的弹性而高效的视频并行处理平台,设计了基于Hadoop MapReduce的视频键值对和输入输出格式,实现了一个大视频数据并行处理的应用框架,可以满足大数据所带来的各种新的业务需求。 1 Hadoop云平台介绍 Hadoop是一个开发和运行处理大规模数据的软件平台,Hadoop是以HDFS和MapReduce分布式计算框架为核心[1]。 1.1 并行计算框架MapReduce MapReduce[2]的基本思想是把所要处理的数据先切分,把切分的数据分发给TaskTracker节点执行,然后把各个TaskTracker节点的运行结果整合成最后输出结果。也就是把一个任务拆分与中间运行结果的汇总[3][4]。 1.2 分布式文件系统HDFS HDFS[5]是一个主/从(Master/Slave)体系结构。NameNode保存着文件的路径,可以像传统文件系统一样可以通过文路径直接对文件进行读写。一个Hadoop集群中包含一NameNode和多个DataNode。在hadoop集群的HDFS文件系统中,文件的元数据保存在NameNode,而文件实际数据保存在DataNode。 2 基于Hadoop的非结构化视频并行处理系统设计与实现 2.1 map和reduce任务类型键值对设计 视频和图片数据在集群中传递必须以键值对形式。Hadoop中map函数和reduce函数之间输入输出数据接口一般符合以下的形式: ; MapReduce并行计算框架中的map函数和reduce函数的键值的类对必须能够序列化。 2.2 MapReduce算法设计 在本系统的Mapper中的map()函数主要是执行行人检测与跟踪算法,算法详细介绍参考文献[6]。 3 实验结果与分析 3.1 行人检测与跟踪效果测试 本文行人检测与跟踪结果如图1所示,红色区域是行人检测与跟踪的感兴趣区域,白色框是被跟踪的行人,而且每个行人都有唯一的编号,白色的曲线为行人轨迹。 3.2 在三个节点的集群下同一视频不同大小分片性能测试 在Hadoop集群中使用三个节点来运行行人检测与跟踪算法代码,视频大小为520Mb,分辨率是720*1080,HDFS的块大小为64Mb。集群中同一视频不同分片大小行人检测与跟踪性能测试结果如表1。 3.3 不同大小视频智能处理性能测试 为了测试Hadoop集群处理不同规模的视频的性能,智能算法处理的内容选择行人检测与跟踪算法。实验条件设置如下:节点个数为3,视频分块的个数为4,HDFS块大小为64Mb,视频分辨率720*1080。实验结果如表2所示。 4 总结 本文设计了MapReduce并行计算框架下视频并行化处理的键值对以及输入输出格式,并且搭建了基于Hadoop集群的非结构化视频并行处理框架,使得开发人员能够在这个框架上快速开发基于视频的并行程序。通过对视频中的行人检测与跟踪算法的测试,得出的结论是:1)视频分片大小与HDFS的基本块相近时,Hadoop集群处理视频数据性能达到最佳;2)通过增加Hadoop集群节点的数目可以提高行人检测与跟踪的效率;3)Hadoop适合大文件视频数据处理,Hadoop集群应用在海量视频中行人的数据挖掘有比较明显的优势。下一步的研究是设计高效的任务调度器,提高Hadoop集群的稳定性。 参考文献 [1] White T. Hadoop: The definitive guide[M]. " O'Reilly Media, Inc.", 2012. [2] L mmel R. Google’s MapReduce programming model—Revisited[J]. Science of computer programming, 2008, 70(1): 1-30. [3] Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM, 2008, 51(1): 107-113. [4] Wang H, Shen Y, Wang L, et al. Large-scale multimedia data mining using MapReduce framework[C]//Cloud Computing Technology and Science (CloudCom), 2012 IEEE 4th International Conference on. IEEE, 2012: 287-292. [5] Borthakur D. HDFS architecture guide[J]. HADOOP APACHE PROJECT http://hadoop. apache. org/common/docs/current/hdfs design. pdf, 2008. [6] 梁建勇,蔡晓东,毕伟伟,等.高效和鲁棒行人检测与跟踪算法研究[J].桂林电子科技大学学报,2014,34(4). 基金项目 [1] 2012年国家科技支撑计划课题(课题编号:2012BAH20B01)。 [2] 2013年国家科技支撑计划课题(课题编号:2014BAK11B02)。 [3] 2013年广西自然科学基金项目(面上项目)(项目编号:2013GXNSFAA 019326)。
|