【摘 要】
:
该文研究对象是Web这样的动态海量信息;研究的主要目标是要得到Web信息处理的有效方法,给用户返回高质量的检索信息.为此提出一种个性化服务系统的结构.通过对国内网页数量的
论文部分内容阅读
该文研究对象是Web这样的动态海量信息;研究的主要目标是要得到Web信息处理的有效方法,给用户返回高质量的检索信息.为此提出一种个性化服务系统的结构.通过对国内网页数量的预测,以及对国内综合性搜索引擎在定期全面搜集时的时新性的计算,探讨了搜索引擎所索引的Web页面的"新鲜性"问题.主要贡献包括以下几个方面:1)提出建立搜索引擎个性化服务系统结构的一种方法,即网页文本分类和用户的个性化兴趣模型进行合理匹配.2)基于自动文本分类的思想,根据网页的特有性质,运用有效的特征提取技术,设计了一种网页文本自动分类的分类器.主要做了两方面的工作:结合网页本身的特点,对特征项提取算法做了合理的改进;应用向量空间聚合技术,对KNN分类算法进行了有效的改进.3)对个性化信息服务系统中用户个性化兴趣模型的建立和维护做了探讨,即利用用户的相关反馈信息和页面访问挖掘相结合的方法更新用户的兴趣模型.4)探索把搜索引擎中个性化信息服务的思想运用到垃圾邮件的分析上,有利于垃圾邮件的过滤和邮件的个性化管理.5)该文预测了国内网页数量及变化规律.另外,我们还计算了国内搜索引擎在定期全面搜索时的时新性,作为评价所索引的Web页面的"新鲜性"的一个指标,为制定搜索引擎的搜集策略提供一定的理论参照.
其他文献
该文提出了安全分级思想,据此对NETFILTER进行体系扩展,以实现将各种典型的防护手段无缝地连接到一个统一的框架中.这样做的好处是用户可以根据自身的需要选择相应的安全级别
XML是一种可扩展标识语言,作为一种结构化的、包含语义的、面向用户的语言,它具有可扩展性、跨平台性等明显特点。这些因素使XML在许多领域得到了广泛的应用,在网络上,XML成为信
容器,作为CCM体系结构中的一个重要组成部分,是CORBA服务端编程框架,为构件提供运行时环境.容器集成了CORBA服务和生命周期管理,从而简化了CORBR服务端程序的编写.所以容器的
软件体系结构已经成为了当前软件工程领域研究的焦点,其研究的目的在于降低软件开发的代价,并且发现更多的相关产品线的不同应用之间潜在的共性。基于通用体系结构的软件开发使
该文首先对GIS数据的相关知识进行简要的介绍,接着分析了现有的各种共享技术的优缺点,然后对空间数据的各种管理方式进行比较,最后实现了一个复制代理器RA的雏形.RA主要由三
该文结合吉林省的用电情况和具体需求,介绍了开发一套电力需求侧管理系统的过程.首先通过建立中间数据库及建立出版、分发和订阅机制来汇集需要的全省用电数据,并且保证这些
该文首先介绍了机群系统的研究现状和研究的目的,并分析了分子动力学模拟计算在机群上应用的必要性,以及该文的研究目的.然后介绍了Linux并行计算机群的配置和组建.该文主要
对现有网络系统运行的安全状况进行定量评估,发现系统的安全状态趋势和规律,并且尽可能的对系统未来一段时间内可能遭受的可疑或攻击行为进行预测,这是近年来网络安全研究发
城市综合管网是由纵横交错的给水、排水、燃气、热力、电力、电信、工业管线组成的错综复杂的空间体系.该论文基于MAPGIS的数据类型提取管线管点坐标、管径、埋深等信息,计算
为改变中国在现代战争理论和实践上的落后状态,我所与国防总参四部多年来合作引进、剖析并开发了相应的软件.该文就是以我所基金项目电子对抗系统计算机仿真作为背景,研究定