藏文网页摘要自动生成系统的研究

来源 :青海民族大学 | 被引量 : 0次 | 上传用户:xianglongke2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的发展,如何有效地组织和分析藏文信息,提高藏文信息领域获取信息的效率,成为满足藏文信息领域人们需求的关键问题,这使得藏文网页技术成为研究热点,其进步推动了相关技术的发展。藏文网页是为了达到特定用户或任务要求,从信息源中提取重要信息、生成精简版本的过程。目前,藏文网页的研究面临冗余信息、压缩比大和可读性差等问题。生成一篇好的文本,不但需要对文档进行深入地分析,还需要有效的处理文本句选择与排序。文本句的选择决定了最终文本的组成成分,文本句的排序决定了文本的可读性,这两者都直接影响生成文本的质量。  本研究主要内容包括:⑴设计藏文网页爬虫。设计并实现了一个能够从互联网上爬取藏文网页的网络爬虫工具。⑵藏文网页的预处理。设计出了能够识别藏文网页文本的净化工具,并重点研究了基于藏文词典、规则、最大概率法和格助词相结合的藏文网页文本自动分词方法。⑶藏文网页的生成算法研究。研究并提出一种有效的藏文句子加权方法,根据句子权重的计算,生成了藏文网页的初始文本,并对初始文本进行平滑处理,使句子能够连贯。⑷提出了有效的藏文网页提取方法。该算法对于藏文网页的提取具有较好的效率,在提取藏文网页时查准率和查全率都达到在80%以上,基本能够提取藏文网页文本的主要内容。
其他文献
藏民族的翻译事业同现行的藏文几乎同步诞生,而且已经有着悠久的历史。早在松赞干布时期就开始翻译大量佛经,走过了几百年的翻译实践道路。到了赤德松赞时期进行了第二次文字厘
《归乡》是千百年来文学创作中一个衍衍不息的主题和情节模式,是中国和韩国现代文学史上一种具有重要文化意蕴的精神现象,在中韩1920~1930年代的现代文学史来看,出现了一系列的表
和所有伟大的知识传统一样,拉康的精神分析理论滋养了许多不同的理论流派,齐泽克领导的斯洛文尼亚拉康学派是其中富有原创性的一支。齐泽克将拉康的思想运用于哲学性和政治性
学位
20世纪80年代,张炯针对社会主义运动中出现的复杂局面,深入研究了社会主义文学艺术的理论。张炯社会主义文学艺术论有着明确的理论前提,马克思主义唯物史观是其理论基础,毛泽东文
近日,华夏和易方达两大基金公司的跨境指数ETF发售,将跨境指数基金推上风口浪尖。记者获悉,目前包括恒指、道琼斯指数、标普指数、纳斯达克指数等各主流指数已纷纷被各家公司预定。基金公司的跨境指数“圈地大战”正打的风生水起。  大基金公司角逐跨境ETF市场  此次,华夏基金推出恒生ETF,易方达推出恒生中国企业ETF(又称H股ETF)。这两只基金各有特点,易方达H股ETF的主要优势在于中国国企指数近几年
一、早疫病:发病后叶面具同心轮纹状病斑,暗褐色,水渍状。茎和叶柄、果实等发病后也有同心轮纹病斑,潮湿时病斑上有黑色霉状物。防治方法:发病前或发病初期喷施70%代森锰锌可
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
期刊