基于频繁词义序列的检索结果聚类算法研究

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:sdfcasdvgase
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前大多搜索引擎结果聚类算法针对用户查询生成的网页摘要进行聚类,由于网页摘要较短且质量良莠不齐,聚类效果难以保证。提出了一种基于频繁词义序列的检索结果聚类算法,利用WordNet结合句法和语义特征对搜索结果构建聚类及标签。不像传统的基于向量空间模型的聚类算法,考虑了词语在文档中的序列模式。算法首先对文本进行预处理,生成压缩文档以降低文本数据维度,构建广义后缀树,挖掘出最大频繁项集,然后获取频繁词义序列。从文档中获取的有序频繁项集可以更好地反映文档的主题,把相同主题的搜索结果聚类在一起,与用户查询相关度高的
其他文献
BIM在当今的中国建筑行业已经得到越来越广泛的应用,其应用面也得到了逐步拓宽。介绍了在运用BIM技术的条件下进行施工安全管理模式的探索,并介绍了如何让BIM应用与日常安全
对东山岛风动石景区园林绿化植物的分布和组成进行调查评估,结合景区植物配植现状和发展需要,运用生态学和景观设计理论,坚持以人为本,以绿为主,兼顾景观效果,探讨景区绿地更
到底什么是战略管理?管理者到底应该“管理”什么?在过去的几十年里,人们对这些问题给出了种种答案,最流行的(甚至是经典的)答案包括战略管理的“过程”规划论、战略管理的资源论、
安全管理是幼儿园管理工作内容的核心,社会各界均给予的高度重视。但是,受到各种因素的影响,幼儿园安全管理事故发生率一直居高不下,不仅影响到幼儿园正常教学秩序,还给幼儿
针对移动用户行为序列的情景感知特性,提出一种基于情景感知的行为转移模式推荐算法MPRC。该算法首先采用Apriori对用户历史行为数据进行长度为2的频繁模式的挖掘过滤,然后将过
为探索流固耦合在水底隧道近接施工中的影响,文中依托长沙地铁4号线下穿湘江近接南湖路隧道建立三维有限元模型,通过数值模拟研究流固耦合作用对新建隧道以及既有隧道的位移
<正>在生产实践中,不少种植番茄的菜农朋友会遇到这种问题,番茄的茎秆发黑,发病轻时植株生长缓慢,长势渐弱,产量下降;严重时植株直接萎蔫枯死。由于引起番茄"黑秆子"的原因有
目的:研究低负荷滤泡型淋巴瘤的最佳治疗方案。方法将26例低负荷滤泡性淋巴瘤患者随机分成3组,第1组采取观察和等待,第2组用4个疗程美罗华诱导治疗后观察,第3组用4个疗程美罗华诱
新疆式可布台铁矿是国内目前开采时间久、矿石品位高的著名富铁矿。通过对矿区岩矿体硅酸盐、稀土和微量元素等地球化学特征分析,结合野外实地观察及室内镜下分析,对矿床成矿
在上市公司年报披露中,项目增减百分比在上期数为负时的计算和披露是一个普遍存在但又颇为特殊的会计实务问题,国内外现行上市公司披露规则中对于如何处理并未做出明确规定,