面向舆情分析的中文新闻网页处理关键技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:szjlq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网络在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”。在反映和引导社会舆论方面,网络媒体具有与传统媒体同样的功能。然而,网络媒体与传统媒体相比在传播载体和传播方式上又有着本质的不同:一方面,任何人都可以在BBS论坛、留言版或者自建站点上发布言论和观点,并且发布者往往不必考虑发布言论的真实性以及由此带来的社会影响,这在传统媒体领域通常是不可想象的。另一方面,网络媒体信息的正确性及传播范围均无法得到有效控制,因此,网络舆情热点、焦点层出不穷。   伴随着信息化建设的高速发展,政府决策者和相关职能部门开始对网络媒体的舆论导向提出更高的要求,如何加强网络信息的管理已成为迫切需要解决的问题。众所周知,网络媒体的传播载体是网页,对网络媒体的监督与管理实际上就是对网页信息的分析与处理,而网页的海量性、动态性和不可控性为信息处理、信息检索和信息使用带来新的挑战,也使得传统的手工方式难以胜任对网页的一系列处理工作。   本文正是以新闻网页为例,结合新闻的专有特性,面向舆情分析,从六个方面对中文新闻网页处理过程中涉及的关键技术问题进行深入系统地研究,即:新闻网页正文抽取、重复新闻网页识别、新闻网页关键词抽取、新闻网页自动分类、主题新闻网页聚合、网络舆情分析,并给出相应的解决方法。通过对网络舆情信息进行及时、全面、准确地分析与处理,最终达到随时关注社会动态,为决策者进行正确选择与科学决策提供支持的目标。   本文关于面向舆情分析的中文新闻网页处理关键技术的研究内容和创新性研究成果概括如下:   1、新闻网页正文自动抽取:该部分主要解决中文新闻网页中导航、广告、版权声明、相关链接等信息的过滤问题。本文针对抽取中文网页正文的传统方法的不足,提出一种基于统计的中文网页正文抽取方法。该方法首先利用DOM树计算文本结点的文本密度,即文本长度与HTML源码长度之比,再利用贝叶斯判别准则计算密度区分阈值,最后根据文本密度与密度区分阈值的比较结果抽取正文:大于密度区分阈值的结点就判定为正文文本结点,小于或等于密度区分阈值的结点则判定为非正文文本结点,将所有判定为正文文本结点的文本连接起来即为要抽取的网页正文。通过使用中文新闻网页对该方法的有效性进行验证,结果表明:该方法是一种易于实现、抽取准确的通用性方法。   2、重复新闻网页自动识别:该部分主要解决中文新闻重复网页自动识别的问题。本文提出一种基于后缀树的中文新闻重复网页识别算法,以后缀树作为基本数据结构,依据新闻网页的标题性和时间性,构建中文新闻重复网页识别算法。该算法以Ukkonen算法和Matching Statistics算法为基础,并对其具体实现进行优化。实验结果表明该算法识别重复新闻网页的有效性,对计算字符串相似度也有启发意义。   3、新闻网页关键词自动抽取:该部分主要解决中文新闻网页自动标引的问题。本文结合新闻的内容特征对中文新闻网页关键词的构成特点进行深入分析,在经典的tf-idf加权公式基础上构建一个综合考虑多种影响因素的候选关键词评分加权公式。选择评分较高的词语作为候选关键词,利用词语的位置标注数据进行关键词抽取优化操作,将“切碎”的候选关键词进行组配,形成正式抽取的关键词。实验结果表明:该方法明显优于基准方法,能够抽取到令人满意的关键词。   4、新闻网页自动分类:该部分主要解决中文新闻网页的自动分类问题。文什标题通常代表文章的中心和主旨,这一特点在新闻中体现的尤其明显。本文借鉴tf-idf的思想,利用新闻标题来做中文新闻网页自动分类的依据,构建基于标题的中文新闻自动分类方法。通过设计多个实验对各种基于标题的中文新闻网页自动分类方法进行评测,结果表明:用标题来做中文新闻网页分类可以大大缩短判断处理的时间,也可以节省很多的存储空间,且准确率较高,特别是改进的类目加权法的分类效果最好。   5、主题新闻网页自动聚合:该部分主要解决主题新闻网页自动聚合的问题。中文新闻主题网页聚合是信息处理领域内的一个新兴且有实用价值的方向。本文通过分析主题新闻网页聚合的基本问题,指出聚合技术的难点,在原有技术基础上,设计出许多独具特色的新算法,比如将新闻的RSS元数据和内容结合起来判断新闻主题相关性的算法,进而提出利用RSS技术实现主题网页自动聚合,并给出详细的聚合系统设计方案。实验结果表明:基于RSS技术对中文新闻网页进行主题聚合的准确率较高,优势明显。   6、网络舆情自动分析:该部分主要解决网络舆情自动分析问题。在网络环境下,舆情的表现形式就是网络舆情,它表达快捷、信息多元、方式互动,具备传统媒体无法比拟的优势,仅仅依靠传统的手工方法难以胜任舆情信息的采集、分析和处理工作,从而舆情信息的正确性及传播范围都无法得到有效控制,舆情形成迅速,热点、焦点层出不穷,对社会影响巨大。本文针对传统舆情分析方法的不足,提出基于主题进行网络舆情分析的思想,并构建一个基于主题的网络舆情分析模型。实验结果表明利用该模型进行网络舆情分析的有效性。
其他文献
随着体育旅游、户外旅游的日益盛行,以及即将到来的2022年冬奥会的举办,滑雪旅游,尤其是大众滑雪将迎来一个高速发展的时期.然而,作为一项高风险运动,滑雪者往往要面临很高的
通过对图书馆信息集群服务模式和传统服务模式的服务链分析比较,阐述图书馆信息集群服务模式在促进图书馆可持续发展与满足用户高层次信息需求上的优势,为创新图书馆的服务模
20世纪80年代,“文化热”持续升温,各个领域、各组织把很多问题当成一种文化现象来研究,从文化的角度审视组织及其管理,分析物质到精神层面的各种文化表现,将文化的概念引入
行政公文是行政机关在行政管理过程中形成的具有法定效力和规范体式的文书,是依法行政和进行公务活动的重要工具。建国后,中国相继于1951年、1981年、1987年、1993年和2000年发
我国的经济社会不断发展,教育行业也进入了快速发展阶段.在物质生活极大丰富的同时,人们的精神需求日益旺盛,对体育健身设施提出了更高的要求.在社会需求的推动下,学校体育设
采用文献资料法和访谈调研的方法,通过对四川省高水平足球运动员的调查,弄清足球运动员压力的来源,以便对足球运动员采取相应的引导策略和管理方法.结果显示:高水平足球运动
足球运动是全球体育界最具有影响力的单项体育运动,被称为“世界第一运动”.足球在中国也有着坚实的群众基础,受到很多大学生的追捧与热爱.但是足球作为一项激烈的体育运动,
学位
20世纪80年代以来,知识密集型服务业(Knowledge-Intensive BusinessService,KIBS)得到了迅速的发展。从20世纪90年代中期起,国内外许多学者对KIBS进行了大量的研究,并取得了较好
新制度经济学背景下的体育管理体制及其改革,可以有不同视角.本文将在简要介绍体育管理体制内涵和类型的基础上,依据新制度经济学理论,从不同体育管理体制的共同特征入手,根