论文部分内容阅读
摘 要:随着互联网技术的发展、内容的激增、全媒体技术的出现,互联网视听节目已然成为广大网民了解世界的新媒体。然而,由于互联网接入门槛低,一些不法网站为了追求眼前利益,放松自身对网站内容的自纠自查,放任网站传播一些政治有害、淫秽色情、血型暴力、低俗有害等不良视听节目,严重影响了青少年时期的心理健康。对此,我中心与清华紫光公司联合开发的互联网视听节目监管系统,用于监控河南所有视听网站上传的违规、违法节目。
关键词:互联网;有害;视听节目;监管
中图分类号:TP393.09
根据截至2013年6月底CNNIC发布的中国互联网络发展状况报告统计,我国国民总数为5.91亿,其中互联网视听节目网民达到3.89亿[1]。视听节目成为广大群众获取信息的主要途径。然而,由于互联网接入门槛低,一些网站为了追求经济利益,放任会员上传、传播一些政治有害、淫秽色情、暴力血腥等有害视听节目。作为国家及民生重要舆论传播及引导部门,对创建和谐稳定、新生、绿色的网络文化有不可推卸的责任。为此,在宣传部及国家广电总局的支持下,河南省广电局信息网络视听节目传播监管中心与北京清华紫光公司,采用国内目前先进的搜索技术、音视频比对技术、大规模数据分析技术联合开发了河南互联网视听节目传播监管系统,用于河南境内互联网视听节目的传播与监管。
1 系统目标
为尽可能实时监管河南境域视听节目,系统目标主要包括以下几点:(1)能在互联网上常年不断地搜索和提取符合河南境域特征的网站,并导入到本地数据库,为节目采集、信息分析,普查河南境域网站突发事件提供候选;(2)能对本地数据库所有网站进行7x24小时不间断扫描及动态监控,及时发现最新焦点的更新、变化,并提取、清洗[2]、标准化节目信息,为传播趋势和路径分析提供资源支持;(3)根据广电总局同步的关键字库,能对违规的视听节目进行自动预警,并方便监管人员进一步核实、上报、查处,及时遏止有害节目传播的速度与广度;(4)能在本地数据库自动扫描并过滤疑似音视频网站,方便人工核实及分类,支持人工判定违规网站及归类,对违规网站的违规内容进行取证;(5)在敏感时期,能响应宣传部、广电总局及当地政府的号召,对专项任务的紧急处理和应对;(6)支持对日常监控情况的统计,对各类违规信息进行全面准确综合分析的统计;(7)支持上述功能的同时,系统在设计上应采用模块化结构,分布式处理,要有良好的可扩展性,技术成熟、稳定,实用高效、操作便捷。
2 架构设计
为保证我中心业务7x24小时网络畅通无阻;网络接入采用双光纤(电信网通各100M);2台ZXR10系列千兆中兴路由器配置适当的路由策略负责内外数据的收发,保证线路畅通、稳定的同时,支持网络负载均衡;2台Power V系列千兆联想网御防火墙设置为透明方式仅对端口进行限制;2台ZXR10系列千兆中兴交换机配置为VRRP的双热备冗余模式,确保一台交换机宕机情况下网络保持正常;2台浪潮FS系列光通道交换机(一主一备)连接1台浪潮AS1000系列50T磁盘存储阵列组成系统主要数据存储。24台服务器除与光通道交换机连接外,对外网连接均采用双卡双备模式,主要有Oracle10g数据库服务器、WEB服务器、流媒体服务器、QVOD下载服务器、HTTP下载服务器、爬虫服务器、网站搜索服务器、邮件服务器等。其整体网络架构图大致如图1所示:
图1 整体网络架构图
3 系统功能特点
互联网视听节目监管系统采用SSH(Spring+Struts+Hibernate)[3]的B/S架构设计模式,业务用户通过Portal门户即可进行访问和操作:查看当日热点节目更新及排行,最新热点节目及违规视频,多维度数据的图形统计分析等;支持违规网站的人工研判,违规节目的分类、取证、下载、验证等业务操作,同时还有权限管理、信息群发等辅助操作。系统采用的关键技术有:(1)互联网视听节目采集与搜索技术[4]。利用WebSpider(也称网络爬虫)技术,从横向和纵向对我中心数据库中的音视频网站逐次扫描,逐层获取页面信息,直到抓取器根据自己的策略终止抓取。通过对本中心音视频网站进行7x24小时不间断扫描,对特定版面、特定类别的内容实现自动抓取。在该过程中,为保证高效的互联网抓取性能,采用快速并发的网页抓取及去重策略,根据网站分布、响应速度、重点级别划分等条件进行自动抓取均衡,综合考虑多种因素的优先级调度策略与等待队列设计。(2)数据存储技术。根据系统相关业务约定的节目内容及格式,对获得的信息数据进行过滤、筛洗、排重、存储。(3)信息检索与统计技术。对文本、音视频节目采用精确与模糊检索结合的方式,提供对新增、热播、精彩推荐、解码评论数、排行榜、上传时间、播放次数等节目属性的排序;对节目激增率、热播、扩散性、违规性等多方面的统计并形成统计报表。(4)音频特征提取[5]与检索技术[6]。通过对音频信息特征提取,实现对音频文件的检索。特定内容的音频信息可以多种形式,可以是特定的关键词,或者特定的说话人,或者是特定的音频片段。(5)视频关键帧自动生成技术。将整段视频分割为一个个镜头,在系统门户页面通过图墙的方式展现给业务用户,用户可以在短时间内完成对该视频的研判。(6)节目分析初判技术。通过视频解码识别引擎技术,对获取到的音视频解码文本属性信息、视频底层特征进行抽取,建立底层特征关系库,通过关键字过滤、综合判别技术,对节目进行自动分析、判定,根据需求自动归类,并报警疑似有害及违规节目,减轻人工审核的工作量。
4 结束语
自2012年系统运行以来,发现河南境域网站17.3万余,视听网站900多家,查处涉嫌政治有害、淫秽色情、无证等违规网站171家,对整治和规范河南互联网视听网站起到了积极作用。但是应对多变、复杂的互联网技术,现存互联网视听监管系统尚存在以下不足:(1)网站搜索效率低下。对于互联网上日益激增、杂乱无章、管理混乱、不按规则展示门户的网站,如何高效、快速搜索定位河南境域网站,对网站搜索技术有极大挑战。(2)网站新增节目采集难。为了采集特定视听网站的节目,必须对此网站进行模板定制,随着视听网站的新增,及以前视听网站改版,模板的配置及修改工作量将不断加大,如何在无需配置模板的情况下抓取节目是我们今后考虑的重点。相信,随着互联网新技术的出现并不断成熟,以上不足之处会得到进一步的改善。
参考文献:
[1]刘伟杰.基于互联网视听节目源的搜索与处理系统的探索研究[J].广播与电视技术,2013(12):37-40.
[2]李雄飞,董元方,李军.数据挖掘与知识发现(第二版)[M].北京:高等教育出版社,2010:28-40.
[3]李刚.轻量级J2EE企业应用实践-Struts+Spring+Hibernate整合开发[M].北京:电子工业出版社,2007:337-388.
[4]叶昆.互联网视听监管系统简介[J].大众科技,2009(10):11-13.
[5]郑继明,魏国华,吴渝.有效的基于内容的音频特征提取方法[J].计算机工程与应用,2009(12):131-133.
[6]白云晖.基于内容的音频检索[J].广播与电视技术,2007(06):30-35.
作者简介:裴鹏真(1982.08-),男,河南偃师人,助理工程师,硕士研究生,主要研究方向:服务器开发、嵌入式多媒体开发、网络视频开发、虚拟化技术、云计算。
作者单位:河南省广电局信息网络视听节目传播监管中心,郑州 450003
关键词:互联网;有害;视听节目;监管
中图分类号:TP393.09
根据截至2013年6月底CNNIC发布的中国互联网络发展状况报告统计,我国国民总数为5.91亿,其中互联网视听节目网民达到3.89亿[1]。视听节目成为广大群众获取信息的主要途径。然而,由于互联网接入门槛低,一些网站为了追求经济利益,放任会员上传、传播一些政治有害、淫秽色情、暴力血腥等有害视听节目。作为国家及民生重要舆论传播及引导部门,对创建和谐稳定、新生、绿色的网络文化有不可推卸的责任。为此,在宣传部及国家广电总局的支持下,河南省广电局信息网络视听节目传播监管中心与北京清华紫光公司,采用国内目前先进的搜索技术、音视频比对技术、大规模数据分析技术联合开发了河南互联网视听节目传播监管系统,用于河南境内互联网视听节目的传播与监管。
1 系统目标
为尽可能实时监管河南境域视听节目,系统目标主要包括以下几点:(1)能在互联网上常年不断地搜索和提取符合河南境域特征的网站,并导入到本地数据库,为节目采集、信息分析,普查河南境域网站突发事件提供候选;(2)能对本地数据库所有网站进行7x24小时不间断扫描及动态监控,及时发现最新焦点的更新、变化,并提取、清洗[2]、标准化节目信息,为传播趋势和路径分析提供资源支持;(3)根据广电总局同步的关键字库,能对违规的视听节目进行自动预警,并方便监管人员进一步核实、上报、查处,及时遏止有害节目传播的速度与广度;(4)能在本地数据库自动扫描并过滤疑似音视频网站,方便人工核实及分类,支持人工判定违规网站及归类,对违规网站的违规内容进行取证;(5)在敏感时期,能响应宣传部、广电总局及当地政府的号召,对专项任务的紧急处理和应对;(6)支持对日常监控情况的统计,对各类违规信息进行全面准确综合分析的统计;(7)支持上述功能的同时,系统在设计上应采用模块化结构,分布式处理,要有良好的可扩展性,技术成熟、稳定,实用高效、操作便捷。
2 架构设计
为保证我中心业务7x24小时网络畅通无阻;网络接入采用双光纤(电信网通各100M);2台ZXR10系列千兆中兴路由器配置适当的路由策略负责内外数据的收发,保证线路畅通、稳定的同时,支持网络负载均衡;2台Power V系列千兆联想网御防火墙设置为透明方式仅对端口进行限制;2台ZXR10系列千兆中兴交换机配置为VRRP的双热备冗余模式,确保一台交换机宕机情况下网络保持正常;2台浪潮FS系列光通道交换机(一主一备)连接1台浪潮AS1000系列50T磁盘存储阵列组成系统主要数据存储。24台服务器除与光通道交换机连接外,对外网连接均采用双卡双备模式,主要有Oracle10g数据库服务器、WEB服务器、流媒体服务器、QVOD下载服务器、HTTP下载服务器、爬虫服务器、网站搜索服务器、邮件服务器等。其整体网络架构图大致如图1所示:
图1 整体网络架构图
3 系统功能特点
互联网视听节目监管系统采用SSH(Spring+Struts+Hibernate)[3]的B/S架构设计模式,业务用户通过Portal门户即可进行访问和操作:查看当日热点节目更新及排行,最新热点节目及违规视频,多维度数据的图形统计分析等;支持违规网站的人工研判,违规节目的分类、取证、下载、验证等业务操作,同时还有权限管理、信息群发等辅助操作。系统采用的关键技术有:(1)互联网视听节目采集与搜索技术[4]。利用WebSpider(也称网络爬虫)技术,从横向和纵向对我中心数据库中的音视频网站逐次扫描,逐层获取页面信息,直到抓取器根据自己的策略终止抓取。通过对本中心音视频网站进行7x24小时不间断扫描,对特定版面、特定类别的内容实现自动抓取。在该过程中,为保证高效的互联网抓取性能,采用快速并发的网页抓取及去重策略,根据网站分布、响应速度、重点级别划分等条件进行自动抓取均衡,综合考虑多种因素的优先级调度策略与等待队列设计。(2)数据存储技术。根据系统相关业务约定的节目内容及格式,对获得的信息数据进行过滤、筛洗、排重、存储。(3)信息检索与统计技术。对文本、音视频节目采用精确与模糊检索结合的方式,提供对新增、热播、精彩推荐、解码评论数、排行榜、上传时间、播放次数等节目属性的排序;对节目激增率、热播、扩散性、违规性等多方面的统计并形成统计报表。(4)音频特征提取[5]与检索技术[6]。通过对音频信息特征提取,实现对音频文件的检索。特定内容的音频信息可以多种形式,可以是特定的关键词,或者特定的说话人,或者是特定的音频片段。(5)视频关键帧自动生成技术。将整段视频分割为一个个镜头,在系统门户页面通过图墙的方式展现给业务用户,用户可以在短时间内完成对该视频的研判。(6)节目分析初判技术。通过视频解码识别引擎技术,对获取到的音视频解码文本属性信息、视频底层特征进行抽取,建立底层特征关系库,通过关键字过滤、综合判别技术,对节目进行自动分析、判定,根据需求自动归类,并报警疑似有害及违规节目,减轻人工审核的工作量。
4 结束语
自2012年系统运行以来,发现河南境域网站17.3万余,视听网站900多家,查处涉嫌政治有害、淫秽色情、无证等违规网站171家,对整治和规范河南互联网视听网站起到了积极作用。但是应对多变、复杂的互联网技术,现存互联网视听监管系统尚存在以下不足:(1)网站搜索效率低下。对于互联网上日益激增、杂乱无章、管理混乱、不按规则展示门户的网站,如何高效、快速搜索定位河南境域网站,对网站搜索技术有极大挑战。(2)网站新增节目采集难。为了采集特定视听网站的节目,必须对此网站进行模板定制,随着视听网站的新增,及以前视听网站改版,模板的配置及修改工作量将不断加大,如何在无需配置模板的情况下抓取节目是我们今后考虑的重点。相信,随着互联网新技术的出现并不断成熟,以上不足之处会得到进一步的改善。
参考文献:
[1]刘伟杰.基于互联网视听节目源的搜索与处理系统的探索研究[J].广播与电视技术,2013(12):37-40.
[2]李雄飞,董元方,李军.数据挖掘与知识发现(第二版)[M].北京:高等教育出版社,2010:28-40.
[3]李刚.轻量级J2EE企业应用实践-Struts+Spring+Hibernate整合开发[M].北京:电子工业出版社,2007:337-388.
[4]叶昆.互联网视听监管系统简介[J].大众科技,2009(10):11-13.
[5]郑继明,魏国华,吴渝.有效的基于内容的音频特征提取方法[J].计算机工程与应用,2009(12):131-133.
[6]白云晖.基于内容的音频检索[J].广播与电视技术,2007(06):30-35.
作者简介:裴鹏真(1982.08-),男,河南偃师人,助理工程师,硕士研究生,主要研究方向:服务器开发、嵌入式多媒体开发、网络视频开发、虚拟化技术、云计算。
作者单位:河南省广电局信息网络视听节目传播监管中心,郑州 450003