基于Web的化工专业信息检索技术的研究与应用

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:ploveye999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术和应用的不断发展,Web页面的数目飞速增长。搜索引擎所面对的数据也呈指数上升。现有的通用搜索引擎都是面向综合信息的,对于化工专业领域的人员来说,查询化工学科的网络信息如果没有优秀的专业检索工具,没有体现化工学科独特的词汇和用语以及相应的标引和检索语言,检索结果就不可能理想。而现有的化工专业检索工具无论是数量和还是质量都无法满足众多专业用户的需要。因此,研究化工专业信息检索方法和技术,建立高效的化工专业信息检索系统,为化工专业人员提供方便快捷的检索服务具有十分重要的理论意义和应用价值。   本文针对网络上的化工专业信息资源特点进行分析,研究面向化工学科的信息检索方法和技术,设计并开发具有化工专业特点的信息检索系统。   搜索引擎是一项融入了多项技术的网络信息检索系统,它涉及到专业网络信息的获取技术、多种信息格式的转换技术、海量信息的索引技术、信息检索技术、文献摘要自动生成技术、网页排序技术、中文分词等多项信息处理技术。本文在对上述核心技术进行深入研究、分析的基础上,设计了一整套适用于化工专业搜索引擎的技术方案,并在系统开发中得以实施。   最丰富的化工专业网络信息资源是网页。自动获取化工专业网页是化工专业搜索引擎核心的技术。本文提出了通过统计化工专业词汇的密度进行网站相关性评价,从而确定化工专业站点的SiteRank,并结合站点内部的链接分析,保证了化工专业网页的定向获取。   另一种化工专业网络信息资源是专业数据库。通常网络数据库信息以动态网页形式出现,属于网络中的深层信息,必须通过提交查询才能获得。通过分析HTML结构标记并建立Tag Tree,本文提出了将网页结构对比分析和页面内容对比过滤相结合的数据提取方案,并对化工物性数据库进行了测试,成功地进行了数据提取,为下一步尝试建立化工数据库搜索引擎奠定了基础。   中文分词算法是中文信息处理的基础,是人们长期研究的热点问题。针对化工专业词汇的特点,本文改进了最短路径分词算法,通过选取最佳路径,消除了部分歧义。改进后的分词算法复杂度并未增加,分词的准确性有了一定提高。   对于大量化工专业网页的索引,系统利用了开放源代码的Lucene索引系统。在对Lucene系统代码深入剖析的基础上,详细研究了Lucene的结构框架、文件结构和类型及索引过程,设计了利用Lucene索引系统建立化工专业网页索引的实施方案,通过对原代码的改进和补充,实现了化工专业网页的批量索引和增量索引。   在化工专业信息检索方面,针对化工专业术语的特点提出了同义词的检索方案,设计了适合同义词检索的词典,实现了化工专业搜索引擎的扩展检索。此外设计了基于关键词词频和位置的网页排序算法及自动摘要生成算法。本文提出的算法形式简单、运算速度快,突出了化工专业性,在化工专业搜索引擎中得到了很好的应用。   最后,本文对化工专业搜索引擎系统的总体结构进行了详细介绍。该系统共有数据采集系统、数据分析系统、网页索引系统和检索系统四部分组成。本文对每个系统内部及系统之间的联系进行了详细设计,并进行了多次系统整体运行测试。测试结果表明,化工专业搜索引擎实现了化工专业网页的自动获取、自动索引,能够实现化工专业网络信息检索功能.
其他文献
光阴荏苒,岁月流逝,令人难忘的2008年即将过去,2009年正昂首向我们走来。沐浴着改革开放的春风,伴随着社会和时代的进步,感知着中国和世界的发展,《纵横》杂志也走过了25个春
本文首先介绍了多电平逆变器的应用,以及多电平逆变器电路拓扑结构和控制策略的发展现状。通过分析多电平逆变器的拓扑结构,选择二极管箝位型多电平逆变器为研究对象,提出在二极管箝位型逆变电路中实现开关角控制的方法,该方法减少了谐波的含量,改善了输出电压的波形,并以TMS320F2407DSP为平台进行了设计实现了该控制策略。本文分析了二极管箝位型逆变电路的工作原理以及工作过程,提出在二极管箝位型逆变电路中
仿人机器人的研究和应用一直是智能机器人领域最活跃的研究热点。仿人机器人系统由理论控制模型与算法、仿人机器人实体和控制计算机本体(包括硬件、软件)三大部分组成。针对国
本文针对我国医疗垃圾焚烧技术发展现状,从焚烧过程控制的角度出发,对改善医疗垃圾焚烧过程的控制效果进行研究,并设计医疗垃圾焚烧过程控制系统。目前在这方面我国相关的研究还
非线性时滞系统的控制问题是控制理论研究的一个重要课题。本论文基于Takagi-Sugeno(T-S)模糊模型,利用线性矩阵不等式(LMI)方法,研究了不确定非线性时滞系统的鲁棒模糊控制问
建筑结构设计是一个系统而全面的工作,不仅是建筑设计成功实现的保证,更是建筑安全应用的基础.建筑结构设计足一项经验性很强的工作,作为结构设计人员,在工作实践中一定要善
交流电源供电方式正在由集中式向分布式、全功能式发展,而实现分布式电源的核心就是模块的并联技术。多台逆变器并联可以实现大容量供电和冗余供电,可大大提高系统的灵活性,使电
合金化钢板以其优良的性能而获得了广泛的应用。在生产中,合金化炉均热段炉压能够影响到炉膛的温度,进而影响到产品的质量。因此,提高合金化炉均热段炉膛压力的控制性能有助于保
可编程控制器(PLC)与CAD/CAM、机器人技术被誉为当代工业自动化的三大支柱。是我校机电控制类专业的一门专业课程。本文从该课程存在的主要问题入手,提出通过调整教学内容与
介绍了三组筛分机械的发展动向,摆振筛在于驱动系统的对称布置;回转筛在于筛网的有效运动;自由振动筛在于形成良好的空间非线性曲线 The development trend of three sets of s