面向韩语的主题爬虫及韩语分词研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:mayy01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,互联网上的充斥着各种各样的资源,在网络中找到自己想要的信息变成了一件十分困难的事情,人们要花费大量的时间对网络上的信息进行过滤。通用搜索引擎虽然在一定程度上能够帮助人们检索信息,但是效果却不总是令人满意。于是出现了面向特定主题的专业搜索引擎,它能够为人们提供更加精确的服务,主题爬虫作为专业搜索引擎的重要组成部分,可以根据用户给定的主题,在网络上准确搜集到主题相关的信息。本文将主题爬虫技术应用到对朝鲜语/韩语网页的搜索工作,在对主题爬虫技术进行了简要介绍后,主要对韩语分词技术、主题预测、隧道穿越策略进行了研究,详细工作如下:第一,分词任务是自然语言处理的基础,中、日、韩等文字在进行各种任务时的首要任务就是分词。在韩语/朝鲜语分词方面,传统的基于匹配的分词方法,往往需要人工构建一个很大的词典,对不在词典中的词没有识别能力,分词精度不是很高。基于统计的分词方法通过对语料库中的字词关系进行学习,得到字之间的相互关系来进行分词,虽然能够对未登录词进行识别,但是在分词时没有充分利用字的语义信息,不能很好的对字的信息进行表示。本文将人工神经网络应用到韩语分词任务中,通过使用词向量技术,更好的对字信息进行表达,先后使用前馈神经网络、循环神经网络、循环神经网络与条件随机场结合的方法来构建韩语分词模型,在分词的准确度上得到了一定的提高,同时在分词时使用的字表示信息可以直接用于主题爬虫中的链接相关性预测。第二,对网页中链接的主题进行相关性预测是主题爬虫中不可或缺的部分,本文利用链接对应的锚文本信息来做主题相关性判断,构建了一个基于双向长短记忆单元的循环神经网络分类模型。由于锚文本的上下文信息具有迷惑性,所以本模型中利用了锚文本中的全部文本信息,排除上下文的干扰,同时循环神经网络在对字符序列信息进行建模时拥有一定的优势,借助双向的循环神经网络可以实现整个锚文本中的信息进行分析,对网页中的链接的主题相关性进行预测。第三,针对主题爬行中的隧道穿越技术,大多数方法都是设置一个深度阈值进行试探,方法不够灵活。本文利用网页中的信息来定义网页的温度值,结合牛顿冷却定律实现不同网页温度的动态调整,使爬虫尽可能的穿越不相关的网页到达主题相关页面,提高主题爬虫的获取能力。第四,本文将上述方法应用到主题爬虫中:利用神经网络分词方法来对网页内容进行分词;使用基于双向循环神经网络的锚文本判断方法来进行链接预测;结合内容与链接的主题预测值来得到网页的温度。结合主题爬虫的其他部分构建了一个主题爬虫系统,实验结果表明,本系统拥有较高的准确率。
其他文献
根据2004年2月、5月、8月、11月长江口生态环境调查资料,分析了长江口及邻近海域浮游植物群落结构的时空变化特征及其与环境因子的关系。结果表明,2004年,共鉴定浮游植物153
新时代习近平人才观是新时代习近平中国特色社会主义思想的重要组成部分,主要蕴含在党的十八大以来习近平关于人才问题及人才工作的一系列论述中,全面回答了新时代我国人才发
选取2010-2012年持续经营的上市公司为样本对高管薪酬进行描述性分析,得出一些行业、地域特征。进一步选取中小板上市公司为样本,研究高管薪酬和公司绩效之间相关关系。发现
网络表情符号的本质是视觉性的象似符号,表现出情感直观性、辅助文字性、操作便捷性等特点,具有明示意图、补充文字意义的概念功能,构建身份、缓和语气的人际功能,承上启下的
<正> 《文学理论词典》是这样定义高潮的:“叙事性文学作品情节的主要部分,也叫‘顶点’、‘高峰’,是作品中的基本矛盾冲突发展到最紧张最尖锐的阶段,面临着矛盾将要获得解
社会学是一门研究社会良性运行和协调发展的机制的综合性社会科学,农民工问题的长期存在对我国的现代化发展和社会健康运行产生了极大的困扰。因此,农民工问题也是社会学应该
随着我国经济的不断发展,市场经济的竞争也日益激烈,企业能否更好的生存和发展面临着极大的考验。成本管理在企业的财务管理制度中占有举足轻重的作用,企业成本管理的有效与
目的:介绍未来医齿科用海洋生物粘结剂的研究状况。方法:通过提出医齿科用粘结剂的要求与目前存在的缺陷,介绍海洋生物粘结剂的优点;重点描述了贻贝海洋生物粘结蛋白(BP)的基
当前我国市场经济的发展受经济全球化与科技现代化的双重影响呈现多元开放的新格局。市场营销环境作为宏观经济形势的有机组成部分,也随之发生新的变革并形成新的格局。企业