文档自动分类技术及其在搜索引擎中应用的研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:q372245556
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文首先介绍了Internet的发菜状况,鉴于Internet是一个庞大、杂乱、瞬息万变的信息海洋,仅仅依靠网页上的超文本链用户是无法方便、快捷地找到自己所需的信息的,为WWW信息提供导航服务的搜索引擎是解决这个问题的重要途径.在介绍了传统的Spider式搜 索引擎和基于人工分类的目录经引擎的特点并进行比较后,指出支持分类上当誓柯际荢pider式搜上擎发趋势,而应用文档自动分类领域的研究成果对所收集的网页自动分类,是实现 对分类目录的支持的一种可行的方法.该文的第二部分介绍了文档自动分类的意义和算法的分类,重点介绍了mary分类系统和Independent Binary分类系统的主要算法和它们的特点,讨论了从m-ary分类系统转换到Binary Independent分类系统的算法以及这两种分类系统的 性能评价指标,分析了特征项选取对分类系统性能的影响和五种特征项选取方法.该文的第三部分提出了使天网系统支持分类目录的设计方案,详细介绍了自动分类系统在实现.文中讨论了自动分类系统在实现过程中遇到的问题以及解决的办法:1、分类目录及其描述方法 ;2、限制文档向量最大分量值及其对系统性能指标的提高;3、使用稀疏矩阵表示文档向量对系统的优化等.在说明了分类系统所使用的分类目录、训练集和测试集之后,该文给出了系统的测试数据.最后,详细介绍了将自动分类系统集成在现有的天网系统中的方法,讨论了对天网系统各个子系统的改造.
其他文献
该文以基于消息传递的机群系统为原型,给出了机群机间通讯系统的性能评价模型.指出现在机群系统机间通讯已经成为影响性能的一个重要的因素.该文就改进点到点通讯提出了一个
目前,常见的语音合成方法大致有以下三类:发音参数合成器、共振峰台成器和拼接合成器.其中拼接合成器的基本思路是以编码方式存储一些合成单元,合成时把这些合成单元连接起来
该论文介绍了INTERNET网络安全概况,分析了现有的网络安全技术,主要阐述了CERNET网络安全应用系统中的安全服务器、安全的POP、Telnet、Ftp服务器的构造、实现以及其评测.
随着Internet在全球的讯速普及以及机器翻译应用领域的不断拓展,市场上出现了面向Internet的网络翻译软件.该文即围绕网络翻译服务器中的这两个功能的开发与实现进行了讨论.
从第一台计算机诞生至今的几十年来,作为发展最为迅猛的一门学科--计算技术已经渗透到人类科学和生产活动的各个层面.近年来,在通讯、工业控制、航天、航空、航海和生活等领
该文将对分布式地理信息系统环境和Agent技术进行研究和探讨,分析其中的关键技 术,主要包括系统的结构,数据模型,多Agent的协作机制,Agent之间的对话语言等;并且结合分布式地
该文首先根据目前流行的两大主要构件模型ActiveX和JavaBean模型的主要特点,提出了应该在商业企业中建立行业级构件库的想法,然后探讨了以这种行业级构件库为底层依托的基于
这篇论文主要讨论了使用集成工具DELPHI如何开发数据库应用程序的方法和技术.在这篇文章中讲述了数据库系统及应用程序的发展过程.简要的介绍了软件开发所遵循的工程模式如瀑
该文系统介绍了数据仓库区别于传统数据库的特点、国内外发展动态、体系结构、设计方法和步骤以及数据仓库在线分析(OLAP)工具产品.接着该文介绍了决策支持系统(DSS)发展的理
该文研究机群机间的高速通讯系统.详细地给出了其中两种数据链路:单链路缓冲机制和基于Wormhole机制的二维Mesh网络.文中详细分析了它们的带宽、延时性能与数据流量和数据缓