并行分类算法的研究与实现及其在视频分析中的应用

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:wxjffh8gf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代,互联网每天都在产生着大量的数据,包括文本,音频,视频等等形式。如何提供快速有效的方法,在数量如此惊人的数据中获得有效信息,是时代向数据挖掘领域提出的挑战。当前,Apache Spark并行计算框架已经成为了大数据领域最为重要的一种工具。支持向量机(Support Vector Machine,SVM)是一种被广泛使用的经典模型。结合核函数,SVM能够获得更为准确的非线性模型,但其求解复杂程度较高,传统求解方法不利于求解较大规模的数据集,且难以进行并行化加速。基于此,本文引入了基于聚类的核矩阵内积过滤方法,通过将原始二次规划问题分解成多个子问题来支持并行训练,提出并实现了一种基于Spark的多重子模型并行支持向量机算法(Multiple Submodels Parallel Suport Vector Machine,MSP-SVM)。实验表明,MSP-SVM能够有效利用Spark集群提高模型训练速度,对比MLlib-SVMWithMiniSGD,MSP-SVM只消耗可接受的额外开销获得接近LIBSVM的建模分类准确度。目前,Spark框架多用于处理文本格式数据,对于视频等其他非文本数据的处理应用较少。随着互联网视频内容的爆发增长,对大规模视频数据进行分析处理的需求也逐渐浮现,同时在图像领域,深度学习在模式识别与特征抽取方面都表现出了空前的优势。基于此,本文提出并实现了基于Spark的大规模视频处理方法,将视频帧序列化为图片格式,并通过引入OpenCV,CaffeOnSpark等开源工具,实现了大规模视频数据的图像特征提取,结合本文实现的并行SVM算法,进行了人脸识别,表情识别的应用,并将所有实现的算法与功能设计成组件,进行了大数据挖掘平台的系统集成。
其他文献
最后要通过把握戏剧形象,理解戏剧主题。正如前文所言,我们可以通过对戏剧语言的解读,重点抓住人物语言来分析人物。如通过周冲对四凤说的一句"谢谢",我们就可以看出周冲是受
陈日亮老师是我的实践导师,他的"我即语文"的执着,文本细读的精深,读写合一的身体力行,心中装着"学生"和"教师"的大爱,都是我及所有语文人、所有教师终身学习的榜样。亲承导