一种提高搜索引擎检索速度的HTML解析方法

来源 :中国科学院计算技术研究所第八届计算机科学与技术研究生学术讨论会 | 被引量 : 0次 | 上传用户:zhouyang340345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前大部分搜索引擎采用全文索引,而它们的预处理方法几乎保留了HTML文件中所有的信息,这不但降低了解析的速度,而且搜索到大量的无关项,本文针对这一情况提出了一种解析HTML部分重要信息的方法,这样能够减少无关项,提高搜索引擎的解析速度,从而提高了检索速度.
其他文献
MCU是基于H.323协议的多媒体会议系统中最关键的组件,H.323多点会议系统中的多点控制单元(MCU)由多点控制器(MC)和多点处理器(MP)组成,可对系统进行集中式、分散式、混合式等多种方
会议
本文讨论了地址翻译(NAT)对H.323通信过程的影响,并分析了现有的几种解决方案,比较它们的优缺点,由此提出了一种基于H.323关守的中继模型来解决NAT的穿越问题.并分析了现有的
基于基因电脑克隆软件SiClone和可变剪接分析软件AltSplice的并行优化工作,提出了一种基于大规模序列比对软件的并行优化方案.这种方案对所要进行比对分析的大规模序列库按照
现代战斗机上的抗荷装备不能完全满足防护需要,歼击机飞行员飞行中由加速度引起的意识丧失(G-induced loss of consciousness,G-LOC)发生率比较高。美国空军飞行员G-LOC的发
本文通过介绍当前两个著名的单点登陆协议:微软Passport单点登陆协议以及自由联盟(Liberty Alliance)规范,来阐述单点登陆技术的基本原理.并介绍一个使用个人域名作为身份标
通常空间数据库构建在关系数据库(RDBMS)上,不同数据库在字段类型选择、BLOB更新方法、子选择支持程度及对字符匹配等方面的差异,为空间数据库移植带来了很多障碍.本文总结了
网络设备在运行过程中不可避免的会出现各种故障,而由于网络设备部署的分散性,使得发现和修复这些故障都比较困难,引发了对故障诊断系统的需求.本文参照现行的故障诊断技术,
解决"软件危机"的关键所在是解决软件固有的复杂性问题.面向对象的技术和软件过程管理虽是最有希望的两个候选者,但独立运用并没有能使软件生产率、可靠性和简洁性提高一个量
以不同的钛源(锐钛矿型TiO2、金红石型TiO2、无定形TiO2)和不同的锂源(Li2CO3、LiOH·H2O),采用高温固相合成法,在不同的温度下合成Li4Ti5O12,研究了Li4Ti5O12的合成工艺条件
会议
排课问题由于其超大的求解规模以及众多的约束条件,是运筹学领域和计算机领域一直致力寻求解决但没有得到解决的NP难解问题.本文根据遗传算法本身特性,设计了一种针对排课问