论文部分内容阅读
随着互联网络在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”。在反映和引导社会舆论方面,网络媒体具有与传统媒体同样的功能。然而,网络媒体与传统媒体相比在传播载体和传播方式上又有着本质的不同:一方面,任何人都可以在BBS论坛、留言版或者自建站点上发布言论和观点,并且发布者往往不必考虑发布言论的真实性以及由此带来的社会影响,这在传统媒体领域通常是不可想象的。另一方面,网络媒体信息的正确性及传播范围均无法得到有效控制,因此,网络舆情热点、焦点层出不穷。
伴随着信息化建设的高速发展,政府决策者和相关职能部门开始对网络媒体的舆论导向提出更高的要求,如何加强网络信息的管理已成为迫切需要解决的问题。众所周知,网络媒体的传播载体是网页,对网络媒体的监督与管理实际上就是对网页信息的分析与处理,而网页的海量性、动态性和不可控性为信息处理、信息检索和信息使用带来新的挑战,也使得传统的手工方式难以胜任对网页的一系列处理工作。
本文正是以新闻网页为例,结合新闻的专有特性,面向舆情分析,从六个方面对中文新闻网页处理过程中涉及的关键技术问题进行深入系统地研究,即:新闻网页正文抽取、重复新闻网页识别、新闻网页关键词抽取、新闻网页自动分类、主题新闻网页聚合、网络舆情分析,并给出相应的解决方法。通过对网络舆情信息进行及时、全面、准确地分析与处理,最终达到随时关注社会动态,为决策者进行正确选择与科学决策提供支持的目标。
本文关于面向舆情分析的中文新闻网页处理关键技术的研究内容和创新性研究成果概括如下:
1、新闻网页正文自动抽取:该部分主要解决中文新闻网页中导航、广告、版权声明、相关链接等信息的过滤问题。本文针对抽取中文网页正文的传统方法的不足,提出一种基于统计的中文网页正文抽取方法。该方法首先利用DOM树计算文本结点的文本密度,即文本长度与HTML源码长度之比,再利用贝叶斯判别准则计算密度区分阈值,最后根据文本密度与密度区分阈值的比较结果抽取正文:大于密度区分阈值的结点就判定为正文文本结点,小于或等于密度区分阈值的结点则判定为非正文文本结点,将所有判定为正文文本结点的文本连接起来即为要抽取的网页正文。通过使用中文新闻网页对该方法的有效性进行验证,结果表明:该方法是一种易于实现、抽取准确的通用性方法。
2、重复新闻网页自动识别:该部分主要解决中文新闻重复网页自动识别的问题。本文提出一种基于后缀树的中文新闻重复网页识别算法,以后缀树作为基本数据结构,依据新闻网页的标题性和时间性,构建中文新闻重复网页识别算法。该算法以Ukkonen算法和Matching Statistics算法为基础,并对其具体实现进行优化。实验结果表明该算法识别重复新闻网页的有效性,对计算字符串相似度也有启发意义。
3、新闻网页关键词自动抽取:该部分主要解决中文新闻网页自动标引的问题。本文结合新闻的内容特征对中文新闻网页关键词的构成特点进行深入分析,在经典的tf-idf加权公式基础上构建一个综合考虑多种影响因素的候选关键词评分加权公式。选择评分较高的词语作为候选关键词,利用词语的位置标注数据进行关键词抽取优化操作,将“切碎”的候选关键词进行组配,形成正式抽取的关键词。实验结果表明:该方法明显优于基准方法,能够抽取到令人满意的关键词。
4、新闻网页自动分类:该部分主要解决中文新闻网页的自动分类问题。文什标题通常代表文章的中心和主旨,这一特点在新闻中体现的尤其明显。本文借鉴tf-idf的思想,利用新闻标题来做中文新闻网页自动分类的依据,构建基于标题的中文新闻自动分类方法。通过设计多个实验对各种基于标题的中文新闻网页自动分类方法进行评测,结果表明:用标题来做中文新闻网页分类可以大大缩短判断处理的时间,也可以节省很多的存储空间,且准确率较高,特别是改进的类目加权法的分类效果最好。
5、主题新闻网页自动聚合:该部分主要解决主题新闻网页自动聚合的问题。中文新闻主题网页聚合是信息处理领域内的一个新兴且有实用价值的方向。本文通过分析主题新闻网页聚合的基本问题,指出聚合技术的难点,在原有技术基础上,设计出许多独具特色的新算法,比如将新闻的RSS元数据和内容结合起来判断新闻主题相关性的算法,进而提出利用RSS技术实现主题网页自动聚合,并给出详细的聚合系统设计方案。实验结果表明:基于RSS技术对中文新闻网页进行主题聚合的准确率较高,优势明显。
6、网络舆情自动分析:该部分主要解决网络舆情自动分析问题。在网络环境下,舆情的表现形式就是网络舆情,它表达快捷、信息多元、方式互动,具备传统媒体无法比拟的优势,仅仅依靠传统的手工方法难以胜任舆情信息的采集、分析和处理工作,从而舆情信息的正确性及传播范围都无法得到有效控制,舆情形成迅速,热点、焦点层出不穷,对社会影响巨大。本文针对传统舆情分析方法的不足,提出基于主题进行网络舆情分析的思想,并构建一个基于主题的网络舆情分析模型。实验结果表明利用该模型进行网络舆情分析的有效性。