网络新闻话题语义信息提取

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:huojugjf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:新闻话题抽取对于话题模型构建以及新闻话题挖掘具有重要的研究意义和应用价值。传统的方法仅仅通过提取关键词包来表示话题,缺乏完整的话题语义信息描述。针对该问题,本文从话题事件要素入手,建立话题语义模型,利用浅层语法特征抽取话题语义信息。实验结果表明,本文算法能有效提取新闻话题要素,抽取结果具有一定的语义表达能力。
  关键词:话题语义信息; 话题抽取; 事件要素; Text Rank
  中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2015)14-0176-03
  Abstract:News topic extraction is of great significance and value for topic model construction and news topic discovery. The traditional methods only extract the key words to express the topic and lack the complete topic semantic information description. Aiming at this issue, this paper starts study in the view of the event elements, and builds the topic semantic model, so as to extracts the topic semantic information by using shallow syntax features. The experiment results show that the proposed method can extract the news topic information effectively and the output has certain semantic expression ability.
  Key words:topic semantic information; topic extraction; event elements; Text Rank
  随着网络的高速发展,不仅网民呈现爆炸式增长,而且导致信息量也大幅度的增长,这为我们带来了很多好处,在搜集信息的时候我们能够很快地找到大量的相关信息,但是同时也带来了很大的麻烦,那就是信息量过大,我们怎么样才能够快速找到对我们有价值的信息成为当前计算机领域的热点问题。显然,通过对信息进行语义化的重组和表达,形成便于人们理解的语义信息将是解决这一难题的关键技术。网络新闻作为互联网数据的重要组成部分,越来越体现出对于社会大众的影响力,日益赶超传统媒体新闻,成为人们获取社会资讯的主要方式。面对大量的新闻事件,如何快速有效的从中获取有价值的语义信息,意义重大,也逐渐成为Web数据挖掘的研究热点。已有的研究方法[1,2]仅通过提取关键词来表示话题,缺乏对话题语义的分析以及事件要素的提取,以关键词包构成的新闻话题挖掘结果大大影响用户对新闻事件的理解。针对该问题,本文提出一种针对网络新闻的话题语义信息抽取方法,从话题事件要素入手,建立话题语义模型,利用浅层语法特征抽取话题语义信息。实验结果表明,本文算法能有效提取新闻话题要素,抽取结果具有一定的话题语义表达能力。
  1 话题语义模型
  几乎所有致力于新闻学研究或者新闻报道写作的人们都沿用了Mott[3]提出的新闻5Ws(Who、What、When、Where、Why)要素学说作为新闻结构的基本准则从不同角度挖掘新闻话题的具体含义。中文网络新闻作为新闻题材的一个分支,其结构也应满足5Ws准则。这样的五元素结构可以完整地表示新闻话题而不受限于新闻格式或者语言,日益成为当前主流的新闻表示结构。基于对600篇中文新闻网页的分析统计,我们发现分别有98%、100%、72.67%、84.83%和37.33%的新闻包含Who、What、Where、When和Why元素,Who、What、Where和When四个元素相对Why具有更大的比重。同时,我们注意到新闻用户使用新闻搜索引擎时,查询的关键词也主要来源于Who、What、Where和When四类元素,说明这四类元素在话题表达上更具有代表性。
  同时,针对新闻标题,我们进行了中文分词和词性标注,得到如表1所示的统计结果。从表格数据不难发现新闻核心四元素主要集中来源于五类词语,即名词、动词、非谓语形容词、时态词以及数词。因此,对于标注后的结果我们只需要关注以上五类词语,在细化抽取对象的同时排除助词、连词等噪声词语对于话题抽取的干扰。
  2 话题信息提取
  根据第二节中关于话题模型的讨论,本文对网络新闻进行中文词性标注和命名实体识别,选取具有话题语义特征的关键词作为话题模型元素,同时采用Text Rank模型[4]计算话题特征权重,根据阈值设置提取关键词构成新闻话题语义信息。
  2.1 词性标注与命名实体识别
  中文分词是将汉字序列切分成词序列,对于输入句子的词序列,模型给句子中的每个词标注一个词性标记。因为在汉语中,词是承载语义的最基本的单元,分词成了是包括信息检索、文本分类、情感分析等多项中文自然语言处理任务的基础。词性标注是给句子中每个词一个词性类别的任务。这里的词性类别可能是名词、动词、形容词或其他。针对本文的话题模型,我们主要选择五类词语,即名词、动词、非谓语形容词、时态词以及数词。命名实体(Named Entity,NE)[5]是文本中基本的信息单位,是文本中的固有名称、缩写及其他唯一标志,是正确理解文本的基础。狭义地讲,可以把命名实体分为人名、地名、组织名等。广义地讲,命名实体还可以包括时间表达式,数值表达式等,在各种应用领域,还可以根据具体的需要定义其他类型的命名实体,例如,在某个具体应用中,可能需要把住址、电子信箱、电话号码、会议名称等作为命名实体。简单来说实体识别即识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。与词性标注相同,我们通过命名实体识别筛选具有话题语义特征的关键词。   2.2 话题语义特征抽取
  新闻报道的核心思想(话题)是由文中的词项来体现。通过词语间的语义关系分析,找出最能代表该新闻核心内容的特征词项。为了弥补传统方法(TF-IDF模型)只计算文中词语词频而没有考虑词项之间语义关系的不足,本文通过构建词项间的Text Rank模型[4],分析多文档间词项的语义关系,抽取出有效关键词。
  Text Rank与Google提出的Page Rank非常类似,它本质是在以词汇作为顶点、词之间关联作为带权或无权,有向或无向边的图上进行random walk的过程[6]。Text Rank模型表示为一个带权有向图G=(V,E),由点集合V和边集合E组成,E是V×V的子集,图中两点i,j之间的权重为Wji。对于一个给定的点Vi,In(Vi)为指向该点的点集合,Out(Vi)为点Vi指向的点集合。点Vi的分数定义为:
  [WS(Vi)=(1-d) d*Vj∈In(Vi)wjiVk∈Out(Vj)wjkWS(Vj)]
  其中,d为阻尼因数,取值范围为0到1,代表从图中某一特定点指向其他任一点的概率。在使用Text Rank算法计算图中点的分数时,需要给图中的点指定任意的初值并递归计算知道某个词语分数收敛,收敛后每个点都获得一个分数,代表该点在图中的重要性。需要注意,点的最后分数不受给定初值的影响,点的初值只影响该算法达到收敛的迭代次数。根据基于图排序算法的基本理论,可以在具有语义关系的词语之间连线构建Text Rank模型。根据词语之间的相互“投票”,递归计算词语分数,选择分数较大的词语为重要词语,其中不和任何词语有连线的词语为孤立点。
  构建Text Rank模型是根据待选关键词词语之间的语义相似关系大小来决定是否在两个词语之间建立边。因此,Text Rank图是带权无向图,边的权重为两个词语之间的关联度,通过词语间的投票递归计算出权重,关键词的选取按分数序列从高到低选择,选取范围可以根据需要设置。
  3 实验结果与分析
  为了评测本文算法的有效性,我们利用从网易爬取的500篇新闻进行话题语义信息抽取算法的实验分析。对抽取结果本文结合搜狗地图,以可视化的方式进行展示,为用户带来一种全新的新闻浏览体验。
  3.1 话题语义信息抽取结果
  因为一个新闻事件中可能存在多个人名、地名、名词和动词,如何确定将那些人名、地名、名词和动词作为一个事件的事件要素,这就需要对事件要素进行权重计算,利用Text Rank算法算出众多事件要素的权重,进行筛选,得出最核心的事件要素作为一个新闻话题的关键词。实验中将得到的关键词如图1所示。
  3.2 抽取结果可视化展示
  我们调用搜狗地图,对事件地点进行定位,通过比较事件要素的权重大小可以获得事件地点,然后添加事件描述(即新闻事件的标题,时间以及抽取下来的其他话题要素),对事件进行可视化展示。如图2所示,在图中我们可以清晰地看到有三个地方做了位置标记(金昌市、白银市、太原),这三个地方分别是从三个话题中抽取出来的话题地点,而每个话题中可能有多个地点,但是它们的权重都是不同的,所以通过比较权重很容易确定时间的发生地点。其他的话题要素也是通过比较它们的权重得出的。
  如图2所示,当鼠标点击地理位置时,就会出现关于该地方最近发生的新闻事件内容摘要,该内容摘要正是新闻话题语义信息提取结果整理后的文字表达。
  参考文献:
  [1] 罗凌, 陈毅东, 曹茂元. 微博观点句识别的话题影响研究[J]. 电脑知识与技术,2014,01:123-127.
  [2] 谈成访, 汪材印. 基于LDA模型的新闻话题分类研究[J]. 电脑知识与技术,2014(16):3795-3797.
  [3] Mott F L. Trends in Newspaper Content[J]. Annals of the American Academy of Political and Social Science, 1942, 219: 60-65.
  [4] 陈宏,陈伟. 基于突发特征分析的事件检测[J]. 计算机应用研究, 2011, 28(1): 117-120.
  [5] 向晓雯. 基于条件随机场的中文命名实体识别[D]. 厦门大学, 2006.
  [6] Pearson, K. The Problem of the Random Walk[J]. Nature. 1905, 72:294.
其他文献
摘要:随着高校校园网网络建设的不断完善和移动应用的需求推进,高校教师和学生对于网络的需求从最初的固定位置使用转向移动办公、移动学习,无线网再也不只是有线网的补充。该文从无线网总体设计和无线网网络规划以及网络的最终部署几方面展开论述,合理完成了高校无线校园网设计并在实际环境中得到应用,使高校教师和学生可以在校园内便捷的使用互联网,实现互联网资源的获取以及资源共享。  关键词:无线网;校园网;设计;实
摘要:創新能力是当代大学生能力培养的重要因素之一,而大学生学科竞赛由有着普通教学模式无法达到的教育效果,它对学生提升创新能力、提高教学质量都有着不可忽视的作用。该文主要分析了学科竞赛在创新型人才培养中的功能,探讨了当代大学生创新能力约束的现状,就这些因素提出了搭建学科竞赛的途径以及对这种新模式的探讨分析。  关键词:学科竞赛;创新能力;培养模式  中图分类号:G642 文献标识码:A 文章编号:1
摘要:针对传统测温元件和测温方法所存在的问题,提出了一种基于DS18820和AT89S51的高精度温度测量仪。详细介绍了单总线温度传感器DSl8820的结构以及其单总线工作原理,并给出了单总线测温仪的硬件电路和软件设计流程。最后,利用Proteus软件进行系统仿真调试,实现了温度实时读取、LCD显示、超温报警等功能。  关键词:单总线;温度测量;DS18820;AT89S51;Proteus;仿真
摘要:根据国内计算机领域较有影响力的计算机学报《软件学报》的2011年至2015年发表的学术论文构建合著网络,对在该期刊上发表合著的计算机领域的科研团队特征进行了统计分析,对合著网络进行了中心性分析、凝聚子群分析。研究结果表明: 合著网络分析方法能清楚的揭示处于计算机领域核心地位的科研团队; 大部分科研交流与合作集中在小部分稳定且成熟的科研团队中。  关键词:社会网络分析;合著网络; 科研团队  
摘要:智能手机行业呈爆发性增长,手机系统软件测试类人才需求激增,而相关人才培养相对滞后。探索通过“校中厂”人才培养新模式,建立适应智能手机系统软件测试人才特点的人才培养模式,改革传统人才培养模式,从提升学生能力和素质方面入手,从课程体系、课程资源建设、课程教学等方面进行“校中厂”人才培养模式实践,取得了良好的效果。  关键词:人才培养;校中厂;模式;智能手机;测试  中图分类号:G642 文献标识
摘要:传统的迎新网站存在新生信息采集相对滞后,管理人员不能在迎新过程中实时了解迎新相关工作的动态过程。对此,采用HTML5和响应式网站技术,充分利用智能手持等移动互联终端,开发出PC端和移动端结合的移动数字迎新系统。实践表明,通过移动互联终端及时采集新生信息,在PC端和移动互联终端实时同步查看新生报到情况等,方便了报到入学新生,迎新工作效率得到了大幅度的提高,增强了迎新工作情况的实时性和直观性,进
摘要:该文结合学校实际,调整专业建设思路,以培养学生综合职业能力为导向,以课程改革为切入点,构建基于工作过程的“一平台 多岗位”的课程体系,创新和完善“实训室 工作室”的专业教学环境,实施“理论 实操”结构的双师型队伍建设,采用“阶段性考核 终结性评价”相结合的教学模式,建设“六共同”的校企合作运行机制,提升教学团队对外技术服务能力,最终实现学生“毕业即就业”的人才培养目标。  关键词:专业建设;
摘要:以海南师范大学师范类课程《现代教育技术》为研究对象,阐述课堂教学环境的重要性。将传统教学环境与现代教育课堂教学环境主要因素进行了对比。通过对两种课堂教学环境下学生的学习成绩对比,分析了传统的课堂教学环境与现代化的课堂教学环境所产生的不同教学效果,给出了不同教学环境对教学效果的影响因素,肯定了现代化教学环境的优势,同时也指出了现代化教学环境的美中不足。  关键词:《现代教育技术》;教学环境;课
摘要:在中高等职业教育领域,教学策略方面的专著大都关注教学过程策略及其优化,包括教学过程中涉及的定义、设计和应用等。该文涉及的现代教学策略的概念关注于主动参与的教学方式的应用,这些方式附带着教学知识目标与能力目标等,并最终实现该课程教学目的的达成。现代教学策略促进了学生的自主学习,加强了学生之间的团队合作。这些现代教学策略的益处还在于实现了多重社会互动,促进了学生们的认知、参与社会以及人际交往能力
摘要:经典阅读推广形式的陈旧导致学生对阅读活动的兴趣逐渐降低,信息化时代需要一种高效的技术手段解决这一问题,Moodle网络教学平台的出现能够很好地将信息技术与阅读有机结合。Moodle平台是当今较流行的网络课堂平台,教师在此平台上仅需做简单的二次开发就能满足教学的需求,利用Moodle平台构建的网络课堂多角度提高了学生参加经典阅读活动的积极性,充分挖掘了Moodle的教学辅助作用。  关键词:M