基于K-means的网页信息检索的聚类研究及实现

被引量 : 0次 | 上传用户:jingliang2xx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的信息检索技术在Web搜索领域面临一些新的挑战和难点。Web搜索领域除了吸收传统的信息检索技术的一些优点之外,还应用了一些独特的技术,并为信息检索提供了一些新的研究热点与方向。本文结合Web中相关网页解析技术,对目标网页中的内容进行了相应的预处理,包括网页中相关标签节点信息、的获取,移除节点信息中的停用词,对节点信息进行词频统计,并将词频统计信息应用于网页节点的向量化。同时采用了数据挖掘中的K-means算法,将网页中获取的检索信息(经过向量化处理后的信息)进行聚类分析,并且将聚类分析后的分类结果集返回给用户。聚类分析后发现,检索结果中一些冗余的信息被过滤掉了,同时聚类分析后得到的分组结果也方便了用户查找其感兴趣的内容。本文所提到的方法在应用实现过程中采用了Eclipse+Tomcat集成开发环境,同时结合了当前Web开发中主流的Struts框架,开发了网页信息抽取模块,信息特征提取及转化模块,对特征信息进行聚类分析模块,以及聚类结果呈现模块等。实验结果表明本文所使用的方法在应用中是可行的。
其他文献
目的:探讨血小板与高血压、高血脂、脑梗塞的临床相关性。方法:选取高血压67例,高血脂22例,脑梗塞22例以及30例正常健康对照,比较高血压组、高血脂组、脑梗塞组中纤维蛋白原
目的通过对嗜酸细胞性哮喘、非嗜酸细胞性哮喘及普通病毒感冒对照组等树突状细胞中TLR3,外周血单个核细胞中NF-κB和血浆中IL-6、IL-8水平的检测,以及对病毒感染诱发的非嗜酸细
难治性高血压(RH)临床风险很高,需要有明确的诊断和有效的治疗方法。鉴于RH的危害以及临床诊断及治疗中的问题,本文回顾近年发表的有关RH的发病率及危险因素、发病机制、诊断
目的:本观察旨在将头电针治疗缺血性脑血管病的疗效与常规头针手法治疗的疗效进行比较,从血液流变学、血脂代谢功能、神经功能缺损、改良Fugl-Meyer(FMA)评分和改良的Barthel指
本文是采用学科交叉的方法而进行的生物传热研究,讨论生物传热与传统医学舌诊理论的相关性。研究内容注重于人舌三维温度场的研究与数值计算。根据舌体真实形状建立舌体及其
<正> 清代的乾隆皇帝,行将85岁时便拟引退。一位御前老中医深为惋惜地说:“国不可一日无君”。乾隆听后,不由得哈哈大笑,并风趣地说:“君不可一日无茶”。一语道破了他一生嗜
期刊
<正>二三月,一路走过的学习历程,我感慨万千.在此期间,我们团队每个人都在忙碌着、快乐着、收获着.因为亲身参与经历磨课的过程,所以切切实实地体会到磨课的不容易.在师傅的
期刊
<正>故障现象一辆2010款大众宝来车,搭载BWH发动机,累计行驶里程约为14万km。车主反映,该车空调不制冷。故障诊断接车后试车,得知该车为手动空调。起动发动机,接通鼓风机开关
大学英语教学强调要培养学生的跨文化交际能力。可以以培养跨文化交际能力为目标来开设一系列大学英语公选课。既要建立科学的公选课课程体系,又要运用恰当的教学模式,使学生
目的:探讨针刺“足三里”、“关元”穴对更年期雌性大鼠心脏组织抗氧化作用及超微结构影响。方法:本实验对更年期雌性大鼠针刺“足三里”、“关元”穴,采用考马斯亮兰测定法测定