【摘 要】
:
随着Internet和Web的高度普及,大量的信息充斥着整个网络。人们每天都要从中获取有用的信息以及知识,这也就导致了信息检索技术的迅速发展。关键词的自动抽取是信息检索的基础
论文部分内容阅读
随着Internet和Web的高度普及,大量的信息充斥着整个网络。人们每天都要从中获取有用的信息以及知识,这也就导致了信息检索技术的迅速发展。关键词的自动抽取是信息检索的基础技术,文档表示,文档自动分类、文档摘要生成、主题判别等都需要关键词抽取工作的支持。而现有的关键词抽取技术存在低频词无法识别、训练过程复杂等问题。
本文针对现有的问题,对使用复杂网络表示中文文档进行了深入研究,提出了一套基于复杂网络的无指导关键词抽取方法,该方法的本质是借助复杂网络将文档语法、语义信息引入到关键词抽取之中,并通过对大量样本统计得出的规律找到影响判断关键词的因素,从而使关键词抽取模型准确性更高,更具说服力。
本文首先应用Logistic回归分析建立了基于复杂网络的文档模型中识别关键词语节点的抽取函数模型,找到影响判别关键词的相关因素,并通过设计一个基于BP神经网络学习系统优化得出的抽取函数模型。由于上述两种独立模型在单独计算关键词概率时,两类错误率均不能达到最优。因此本文进一步尝试将上述两种独立模型结合起来,提出了一种基于复杂网络的关键词抽取混合模型。最后通过实验验证了本文提出的关键词混合模型的可行性和正确性,并且该方法比现有方法在准确率上有了一定提升。从而为关键词抽取提供了一种较为新颖的解决方法,也是交叉学科研究的一次新的尝试。
其他文献
互联网迅速发展的同时,网络安全问题日益成为人们关注的焦点,病毒、恶意攻击、非法访问等都容易影响网络的正常运行,多种网络防御技术被综合应用到网络安全管理体系中。传统
随着医学成像技术的发展与进步,特别是计算机技术的发展与X-CT、MRI以及显微拍照等新型技术与设备的出现,计算机数字图像处理在医学研究与临床实践中的作用越来越受到各方重
随着医学成像技术的不断发展,人们不再满足于对二维断层图像的处理与分析,越来越需要对断层组织图像进行三维显示。传统的二维断层图像的诊断主要是凭借医生的经验来构思病灶的
概念可以分为三个不同的层次:上层,中间层(基本层)和下层。大多数研究表明,人类在进行信息提取的过程中,大脑会首先提取某一层次上的信息,这种现象称为基本层加工优势。然而也
虚拟现实中场景的生成对实时性要求很高。场景中模型量的大小和模型的复杂度对场景渲染的实时性影响相当明显。当模型量很高或者模型非常复杂时,虚拟仿真系统的实时性降低。
随着压电陶瓷的广泛应用,压电陶瓷性能参数的测量已经在整个电子测量行业中占有重要的地位。压电陶瓷的性能参数与其制造工艺,化学成分,形状,极化效果等有关。阻抗分析仪是进行压
21世纪是信息的时代,信息成为一种重要的战略资源,信息安全事关国家安全和社会稳定。可信计算技术从硬件和操作系统做起,从整体上采取综合措施,能够行之有效地提高计算平台的
随着计算机应用技术的发展,以网络和多媒体技术为基础的网络教育越来越普遍,已成为新一代教育的发展方向。教师和学生能建立在线网络课堂,在网络上实时地进行语音视频教学,师生交
人脸的自动识别是模式识别和计算机视觉等领域的研究热点之一。然而,人脸图像的特征维数通常情况下都非常高,直接对这些高维数据进行处理,不仅使得计算复杂度非常高,而且会带
问题求解是人类思维最常见的一种方式,是人类重要的高级智能活动之一。启发式问题求解会对问题的求解空间进行一定的限制,使搜索朝有利于问题解决的方向进行,而不是盲目搜索