融合语义知识的藏文网页关键词提取方法研究

来源 :图书馆学研究 | 被引量 : 0次 | 上传用户:xiaoshumin82
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文章归纳整理了藏文网页的结构特征,在借鉴中英文关键词抽取方法的基础上,设计实现了融合语义知识的藏文网页关键词抽取算法。该算法利用藏文文本特征实现了网页内容模块的智能识别,在对识别的文本块进行自动分词后,采用改进的TF-IDF算法得到基础词集,然后根据词向量特征进行基础词的语义扩展构建候选关键词集,最后利用候选关键词之间的语义相关度值,确立藏文网页的关键词。藏文网页的实验测试结果表明该方法提取的藏文网页关键词具有较高的准确率。 This paper summarizes the structural features of Tibetan web pages. Based on the reference of Chinese and English keyword extraction methods, this paper designs and implements the key words extraction algorithm of Tibetan web pages that integrates semantic knowledge. The algorithm uses the Tibetan text feature to realize the intelligent recognition of the webpage content module. After the automatic segmentation of the identified text block, the improved TF-IDF algorithm is used to get the basic wordset, and then the semantic expansion of the basic word Build a set of candidate keywords, and finally make use of the semantic relevancy between the candidate keywords to establish the key words of Tibetan web pages. The experimental results of Tibetan web pages show that the keywords of Tibetan web pages extracted by this method have high accuracy.
其他文献
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
实验发现降脂稳压袋泡茶有非常显著的降低血小板的粘附作用,与服药前及阳性药组比P<0.01,同时发现降脂稳压袋泡茶大、小剂量组均可降低血栓长度。湿重和干重P<0.05;P<0.01 Experiments found that
中国清代著名戏曲家洪升的《长生殿》(1688年)与英国文艺复兴时期戏剧大师莎士比亚的《安东尼与克莉奥佩特拉》(以下简称《安东尼》,1607年)是比较文学热门话题。大多数学者
1 Treasure 5月,全锦安城的人都在过敏,纷纷扬扬的杨花,恨不得取代棉花去做被子,漫天盖地。周宝藏太喜欢这个时候了,一是街上美女的长裙飘飘很养眼,二是又能折腾新老师了。班
《农村养殖技术》改刊后已出版5期了,每期我都爱不释手地反复阅读,总的感觉是:贵刊越办越好,越 “Rural farming technology,” has been published after the publication
请下载后查看,本文暂不支持在线获取查看简介。近期国内外学术会议、展览会详情@王晓峰 Please download to view, this article does not support online access to view pr
期刊
侯昭科是山东省嘉祥县黄垓乡黄东村一名退伍军人,他种过田,出外打过工,却一直未能摆脱贫困。自从村委让他订了《农村养殖技术》后,他从中学到不少知识。他根据当地的实际情
对于中学生来说,学好语文文言文是非常重要的。文言文学习历来是初中大部分同学头疼的问题,怎样迈过这道坎呢?先说一说学习文言文的重要性:虽然文言文不是现实中的语言,今天
至今,我还念念不忘少时在乡下夜里听雨的闲趣,老屋白墙灰瓦,岌岌可危,囿于生活捉襟见肘,贫不胜言,未能翻修。雨下大一点,屋里到处漏雨,父亲找来竹竿顶漏雨的地方,母亲搬来脸
生在汉语的国度是幸福的,如果能做一名优秀的汉语表达者,我想大概是不亚于人生四喜的美满之事。  成为一名优秀的表达者,首先是对自身智慧的提炼与升华。灵感在我们脑海中是以变幻的思想、偶尔的闪光呈现出来的,如春梦朝云般不可捉摸;而当杂乱无章的思绪、信马由缰的感情变成丝丝入扣的推理和文字时,固然是一种痛苦与压迫,更是对自身思维的固化和锤炼。文字是文明与蛮荒时代的分水岭,我想不是偶然,不仅仅是因为文字可以记