新闻文档摘要自动生成

来源 :今日财富·中旬刊 | 被引量 : 0次 | 上传用户:evaxiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】本文研究了新闻文档摘要自动生成技术,在认真总结前人研究成果的基础上,设计了新闻文档摘要自动生成技术,在认真总结前人研究成果的基础上,设计了新闻文档摘要自动生成系统,该系统是采用自动摘录原文中句子生成摘录性摘要的方法,它将文本视为句子的线性序列,将句子视为词的线性序列。然后通过计算句子的权值,对原文中的所有句子按权值按从大到小排序,权值最高的若干句子被确定为文摘句,然后将所有文摘句按照它们在原文中的出现顺序输出。该系统直接利用计算机进行新闻摘要的自动生成,要实现的功能就是给定一个新闻文档后,经过统计分析,给出文档的摘要句并依照原文顺序依次输出。系统力求摘要句抓住原文的核心内容,语句连贯,不遗漏主题。
  系统主要分为文本预处理、分词、关键词提取、摘要句提取四个模块。考虑到开发周期和实际使用质量,在分词模块直接采用的是评价较好的中科院分词系统,但又针对新闻文档的特征在分词后又添加了进行新词识别模块,文中还给出了关键词和摘要句提取的权值公式。
  【关键词】自动摘要;新词识别;词频;权值
  
  一、绪论
  对于新闻文本来说,虽然目前各大新闻入口网站针对电子新闻有大致上的分类,但在这样的结构下,每天仍然有不计其数的新闻,阅览者必须利用很多的时间,在庞大的新闻语料库中搜寻自己喜好的信息。这是非常费时和耗费精力的事,如何解决这个难题呢?面向新闻文档的自动摘要技术就是解决这一难题的有力工具。本文介绍了该技术,并利用这项技术设计了新闻文档摘要自动生成系统。
  本文研究内容
  本文在认真总结前人研究成果的基础上,着重研究了新闻文档摘要自动生成技术,并且还给出了新闻文档摘要自动生成系统的分析与设计思路,最后对系统的设计进行了详细的叙述。
  本文的研究内容主要包括以下几个方面:
  (1)深入分析了新闻文档的结构和语义等各方面的特征,明确新闻文档摘要的组成要素,提出了新闻文档自动摘要的关键技术,讨论了其中所涉及的技术难点。
  (2)研究了适用于新闻文档的自动摘要技术,并分析与设计新闻文档摘要自动生成系统。
  二、新闻文档摘要自动生成系统的设计
  新闻文档的结构主要是文档格式,而不是重点内容。新闻的内容是自然语言,直接通过计算机处理,是非常困难,因此需要使用文本表示的方法来描述文本,方便电脑进行处理,也需要对文本进行处理,提取特征向量。
  (一)设计目标
  我们最主要目标是对输入的新闻文档自动生成全面简洁的摘要。为达到这个目标,首先需要分析文档摘要的特点。美国同行曾对部分手工摘要中的摘要句进行了统计,报道结果如下:手工摘要中91%的摘要句是原文中的句子,其中79%的摘要句是完全照抄,3%的摘要句是由原文中的句子拼凑而来,4%的摘要句是由原文句改造而来,5%的摘要句是由原文中的句子拼接再改造,只有9%的摘要句是人工自撰的[1]。也就是说:现代大多数手工文学中的大部分摘要基本上都归类到摘录性摘要的范畴中。对于这种统计结果,我们分析其原因可能在于:大多数文章可以通过从其中挑选出一些重要的句子,以反映文本的主要内容。虽然如今电脑的运行速度非常快,又有很强的形式分析和统计能力,但在语义分析与理解能力方面几乎是零。因此,研究和开发新闻文档摘要自动生成系统,就能够从自动编制摘录性摘要取得突破。在初步成功地摘录从原句的基础上,向人工摘要逐渐逼近。
  (二)系统的结构模型
  新闻文档摘要自动生成系统使用的方法是把原文中的句子自动摘录生成摘录性摘要,将文档看作成句子的线性序列,将句子看作成词的线性序列,通过计算词的权值——>计算句子的权值——>把原文中的所有句子按照权值高低降序排列——>权值最高的若干句子被确定为摘要句——>将所有文摘句按照它们在原文中的出现顺序输出。
  新闻文档摘要自动生成系统的简单结构模型主要包括以下几个模块:
  (1)文本预处理模块,首先对输入的新闻文本进行预处理,包括新闻文本中标点
  (2)关键词提取模块,抓住文章的主要内容,也就是抓住关键词句。系统主要是通过扫描预处理以后的新闻文档,去掉停用词表中的词,再进行词频统计和词汇权值的计算,然后将权值大的5个词作为关键词。
  (3)提取摘要句模块,确定能够反映文档核心内容的关键句。在目前的技术条件下,选择相对简单的方法,即提取出原文中的原句作为摘要句。系统采用的方法是统计句子权值,即将相关联的句子依照制定的规定加权,然后依照加权结果选择摘要句。
  (4)摘要输出模块,组合、输出文章摘要。因为摘要中只有陈述句,所以先把句子中的感叹句、疑问句排除掉,然后适当的综合加权。加权后把各个被选句子的权值按大小进行排序,选取相应摘要句数目,把它以原文中的顺序排列组成文档摘要并输出。
   图2.1 系统结构模型图
  (三)模块设计
  新闻文档摘要自动生成系统就是电脑自动地从最初的新闻文档中提取摘要,考虑到系统的实用性,我们选择了比较实用化的自动摘录方法。本系统主要由文本预处理、提取关键词、提取摘要以及摘要输出四大功能模块组成。新闻文档摘要自动生成系统的主要问题是摘要句的提取算法及分词。摘要句的提取对于摘要的形成非常重要,若提取算法出现问题,就会降低所提取的摘要句的质量;而分词则是本系统的基础,只有在高效、合理的分词前提下,才能够保证提取出关键词,才能够准确反映出文档的关键内容。
  综上所述,我在本系统中主要应用的技术包括新词识别算法、中文分词技术、提取算法等,下面详细说明结合各个模块的相关技术。
  1.文檔预处理
  根据上面所提出的新闻文档摘要自动生成系统的功能模块所示,要先对输入的新闻文档进行简要的预处理。预处理是文本分类中的一个重要环节,预处理结果的好坏不仅关系到分类的准确度,而且关系到训练时间的长短和影响到分类的速度。预处理是自动摘要的最初步骤,也是各种自动摘要方法都要进行的步骤。
  结合统计理论和实验具体实现得出闽值d取黄金分割0.618得到的新词识别结果较令人满意。经过新词识别模块后,词的识别准确率有了进一步的提高。如:一篇对“非诚勿扰”节目的新闻报道,“非诚勿扰”应作为主要的关键词被提取出来,但初步分词后得到的结果是“非诚勿扰”被划分成了四个单字:“/w 非/h 诚/a 勿/d 扰/v ”。经由新词识别以后,“非诚勿扰/n”这个词语才可以被识别出来。由此可见增加的新词识别模块给关键词提取的精度上带来了较高的提升。
  2. 关键词的提取
  关键词是用来表示文章主题内容、信息、款目的单词或术语;是对新闻内容的名词性术语的反映;是从新闻分级提取,新闻内容的实质性意义的词或短语;是自然语言表达新闻主题词汇的概念。
  关键词的提取主要依据以下几个特征:
  (1)词频特征
  词频即词在新闻中的出现频率,词频特征是摘要系统中使用频率最高的一个特征。通常,一个词在新闻中跨越的段落数较多,出现的频率较高时,就显示了这个词在新闻中的重要程度大。
  (2)标题词特征(title)
  标题词特征主要考虑新闻的标题中是否出现该词。标题在新闻中是非常重要的,是新闻传播的中心思想,标题成为引起读者注意的重要因素,它要求在短短一二十个字内要高度浓缩新闻的主要内容,提供尽量多的信息。读者对新闻标题已形成“第一依赖感”,标题成为读者识别新闻内容,判断新闻价值的第一信号,成为读者决定是否继续阅览新闻的首要选择关卡[4]。因此,新闻标题中出现的词汇常常表示新闻内容的一个要点。
  (3)大写字母特征(eng)
  当一个句子中包含像APEC、BIM等大写的英文单词时,这个句子可能包含有重要的信息。在新闻中,在科技类和金融类新闻中大写字母出现的频率特别高,特别是它们经常包含着重要信息,往往代表名词义的关键特征。
  (4)词的位置特征(pos)
  新闻中的第一段通常明确描述了新闻的内容,表明了新闻的主要观点。因而出现在第一段中的词汇也较重要。新闻的最后一段通常是总结该则新闻的内容,所以在该段中的词汇也较重要。
  3. 摘要句的提取
  提取出关键词后,我们就可以计算新闻文档中每个句子的权值,从而定量的确定每个句子在文档中的重要性,根据句子权值的大小来提取摘要句,然后根据摘要句来生成新闻文档的摘要。
  摘要句的提取主要依据以下几个特征:
  (1)位置特征(Position)
  在词的特征选择中,我们考虑了词的位置特征,同样,对于句子来说,它在文章中的重要程度也和其所在位置有很大关系[5]。
  (2)实词特征(Word)
  如果某个语句拥有越多实词(除去无意义的停用词),那么该语句包含的信息量就越多,属于摘要的概率就越大[6]。另外,句子中包含的实词都有对应的权值,所以句子的重要性也由里面包含的實词特征所决定。同时,词条权重之和应该除以句子所包含的词条总数,得到句子的平均词条权重,从而消除句子长度的影响。
  (3)与标题的相似度(TitleLiked)
  这个特征主要考虑文档中的每个句子与新闻标题的相似程度。总所周知,标题是新闻最浓缩的摘要。在上面对词的关键特征提取中,我们分析了新闻标题对其主题的重要作用。同样,对于文中的句子来说,如果它与标题比较相似,即与标题表达的意思较接近,那么该语句与新闻主题的相关程度就会较高[7]。由此可见,如果句子与标题的相似度越大则该句成为摘要句的可能性就会越大。
  4.摘要的生成
  在生成文档摘要之前,需要先确定摘要的大小,系统实现时我们根据用户输入的压缩率动态确定提取句子的数量,以满足用户各种需要。然后按句子的权值排序提取相应句子,将所提取句子按其在原文中的位置依次排列,另外,为了实现较好质量的摘要,还必须对摘要进行平滑和修正处理,提高摘要的通畅性和可读性。
  
  【参考文献】
  [1]鲁凡.基于分形理论的自动摘要硕士论文[D].吉林大学,2004.9
  [2]李英.基于词性选择的文本预处理方法研究[J].2009,第27卷,第5期
  [3]王宏钧,张惠答.标引关键词.大连民族学院学报[J],第2卷,第l期,2000.1:53~58
  [4]高刚.网络新闻写作的特点[J].网络传播,2004(2):58~61
  [5] Fang C et al. An Approach to Sentence-Selection-Based Text Summarization[J]. Proceeding of EIEETENCON'02, 2002:489-493
  [6]沈记全等.Web 文本挖掘系统及其分类算法的研究与实现[J].计算机工程,2003,29(17):37~38
  [7]陈桂林,王永成.Internet网络信息自动摘要的研究[J].高技术通讯,1999(2):33~36
其他文献
【摘要】全球化和信息技术的时代,社会生活的方方面面都与各种资讯息息相关,统计基础工作作为一种定量认识问题的工具,其作用日益增大,重要性俞益增强。本文就对统计基础工作进行改革重要意义进行了分析,同时提出了具体的改革措施及方法,以此提高统计在日常工作中的实际应用水平。  【关键词】统计基础;方法;工作    一、重视统计基础工作是社会主义市场经济发展必然选择  (一)统计是整理和分析数据的重要工具。统
期刊
【摘要】工业总产值、工业增加值率和工业品价格指数成为计算工业发展速度的三要素。这三要素的正确与否直接决定了工业发展速度计算结果的准确性。本文拟针对分行业工业总产值问题、工业增加值来源的合理性、工业品价格指数计算的准确性、计算表式的改进以及单缩法计算的局限性阐述并提出改进意见。  【关键词】统计;工业发展速度;计算;探索    价格指数缩减法计算工业发展速度已正式运行六年多了。相对于用不变价工业总产
期刊
【摘要】我国上市公司的内源融资在融资结构中的比例是相当低的,外源融资比例远高于内源融资,而在外源融资中又尤以股权融资为主,融资结构不合理。本文结合上市公司融资结构存在的不足,提出资本结构优化策略,追求企业价值最大而综合资本成本最低的资本结构,保持上市公司良好的财务状况。  【关键词】资本结构;股权融资;激励机制    根据资本结构的顺序偏好理论,企业偏好将内部资金作为投资的主要资金来源,其次是债务
期刊
【摘要】有效的财务管理是企业管理的重要部分,可以为企业带来很好的经济效益。对于每个企业来说,如何加强财务管理,提高经营管理水平,协调各个成员企业的财务关系,正确处理集团成员企业与集团公司的利益关系,在保护整体利益前提下调动各方面的积极性,已成为促进企业发展的重要课题。   【关键词】企业效益;财务管理    随着我国社会主义市场经济体制的完善和国有企业改制的逐步深入,企业员工积极转变经营观念,紧紧
期刊
【摘要】随着我国高教事业的不断发展,办学经费多元化格局逐步形成,高校经济活动也日趋多元化,现行的高等学校会计制度已经滞后于公共财政体制改革和高校改革与发展的需要,更不能满足利益相关主体对高校财务信息的需要,高校财务信息在现行会计制度的约束下,并不能得到客观真实的反映。随着新的《高等学校会计制度》的即将出台,高校财务信息的制度性失真将会逐步得到解决,从而保证高校财务信息的客观性、真实性与全面性。  
期刊
我国会计界对会计职能的认识观点纷繁,共同之处都对会计反映职能给予认同。而对于会计是否有监督职能则存在不同观点及认识。我认为应首先肯定的是会计有监督职能。从整个社会看,监督是多方面的,有财政监督、税务监督、审计监督、会计监督,它们相互联系构成了一个完整的社会监督体系。随着企业经营机制的转换和现代企业制度的建立,会计监督的方式、内容和范围必然会做出相应的调整,在整个会计职能体系中,其层次和地位也会发生
期刊
审计的目的主要受两方面因素的影响。—方面是社会需求,这是决定审计目的的根本因素。在早期的详细审计阶段,审计报告的使用人主要是企业股东,他们最关心的是所投资企业的会计报表的真实可靠,企业资产的安全和完整,因此这个阶段,查错揭弊是主要的审计目的。到20世纪初期,世界经济中心从欧洲转到美国,在当时资本市场尚不发达,金融资本对企业资本的渗透加大的情况下,大部分企业的筹资渠道主要是银行贷款。审计报告的主要使
期刊
【摘要】针对中职学校财务控制中存在的主要问题,提出了加强财务控制的主要措施,促进学校的健康发展。  【关键词】中职学校;财务控制;措施    中职学校对各系(部)、各职能部门实施财务控制总是以一定的财务控制模式为指导。不同的财务控制方式对必然产生不同的财务管理效应,因此,选择合适的财务控制模式对提高中职学校的财务控制效率就显得非常重要。  一、中职学校财务控制过程中存在的问题  (一)资金分散,效
期刊
【摘要】本文针对会计信息提供者企业和会计信息的外部监督者,注册会计师和政府监督部门之间利益的博弈分析,建立博弈分析模型,通过分析找到影响会计信息失真的因素,从而有针对性的提出解决办法。  【关键词】博弈;均衡;行为策略;会计信息失真    一、企业与政府监督部门的博弈分析  (一)博弈模型要素  (1)参与者:监管主体,即政府监督部门如财政、审计部门;监管客体,即企业.(2)行动策略:政府监督者行
期刊
【摘要】税务代理在我国是一个新兴行业,是随着经济体制改革和社会主义市场经济的建立应运而生的。我国的税务代理行业在这些年有了一定的发展,但是其在行业定位、代理机构、代理人才、代理业务、政策措施等方面还存在着一些问题,本文对于这些问题进行了相关分析,并提出了一些相应的治理对策。  【关键词】税务代理;纳税人;税务机关    相较于国外发展成熟的税务代理,我国的税务代理起步较晚,从1983年开始兴起,至
期刊