论文部分内容阅读
如今,互联网上的充斥着各种各样的资源,在网络中找到自己想要的信息变成了一件十分困难的事情,人们要花费大量的时间对网络上的信息进行过滤。通用搜索引擎虽然在一定程度上能够帮助人们检索信息,但是效果却不总是令人满意。于是出现了面向特定主题的专业搜索引擎,它能够为人们提供更加精确的服务,主题爬虫作为专业搜索引擎的重要组成部分,可以根据用户给定的主题,在网络上准确搜集到主题相关的信息。本文将主题爬虫技术应用到对朝鲜语/韩语网页的搜索工作,在对主题爬虫技术进行了简要介绍后,主要对韩语分词技术、主题预测、隧道穿越策略进行了研究,详细工作如下:第一,分词任务是自然语言处理的基础,中、日、韩等文字在进行各种任务时的首要任务就是分词。在韩语/朝鲜语分词方面,传统的基于匹配的分词方法,往往需要人工构建一个很大的词典,对不在词典中的词没有识别能力,分词精度不是很高。基于统计的分词方法通过对语料库中的字词关系进行学习,得到字之间的相互关系来进行分词,虽然能够对未登录词进行识别,但是在分词时没有充分利用字的语义信息,不能很好的对字的信息进行表示。本文将人工神经网络应用到韩语分词任务中,通过使用词向量技术,更好的对字信息进行表达,先后使用前馈神经网络、循环神经网络、循环神经网络与条件随机场结合的方法来构建韩语分词模型,在分词的准确度上得到了一定的提高,同时在分词时使用的字表示信息可以直接用于主题爬虫中的链接相关性预测。第二,对网页中链接的主题进行相关性预测是主题爬虫中不可或缺的部分,本文利用链接对应的锚文本信息来做主题相关性判断,构建了一个基于双向长短记忆单元的循环神经网络分类模型。由于锚文本的上下文信息具有迷惑性,所以本模型中利用了锚文本中的全部文本信息,排除上下文的干扰,同时循环神经网络在对字符序列信息进行建模时拥有一定的优势,借助双向的循环神经网络可以实现整个锚文本中的信息进行分析,对网页中的链接的主题相关性进行预测。第三,针对主题爬行中的隧道穿越技术,大多数方法都是设置一个深度阈值进行试探,方法不够灵活。本文利用网页中的信息来定义网页的温度值,结合牛顿冷却定律实现不同网页温度的动态调整,使爬虫尽可能的穿越不相关的网页到达主题相关页面,提高主题爬虫的获取能力。第四,本文将上述方法应用到主题爬虫中:利用神经网络分词方法来对网页内容进行分词;使用基于双向循环神经网络的锚文本判断方法来进行链接预测;结合内容与链接的主题预测值来得到网页的温度。结合主题爬虫的其他部分构建了一个主题爬虫系统,实验结果表明,本系统拥有较高的准确率。