基于后缀树聚类的主题搜索引擎研究

来源 :情报理论与实践 | 被引量 : 0次 | 上传用户:sanshao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的/意义]一个好的主题搜索引擎能够更好地满足专业领域用户的信息需求。[方法/过程]在爬取阶段采用锚文本正则表达式匹配进行主题过滤、加入IKAnalyzer中文分词器,结合TF-IDF、OPIC和Topic-PageRank算法对检索结果排序进行改进并通过STC算法对检索结果实时聚类。[结果/结论]以“图书情报”为主题进行实验测试,每增加一个分布式计算节点爬取速率提高20%,查准率优于未排序优化23%,检索结果可以实时聚类并以可视化展示,且检索结果项多为相关论文。[局限]系统对网页中繁多的数据格式解析度
其他文献
1.直观比较例1已知二次函数y一二2和反比例函数y一号(a0)在同一坐标系中的大致图象是(,平卡来带ABCD 一L_月一k0k0k0k0y一凡之~r“a0a0a0a0y~axZ+ka0a0a0召0k0k)0k0k0(A) 分
当前国内专家学者对情报学创新发展问题展开广泛研究与讨论。情报科学读书会已走过8个年头,聚集了一大批学者,其关注领域与研讨成果在情报学界已经产生重要影响。在即将迎来
文章构建多数据源情况下的科研合作网络模型,结合加权、数理统计、关系网络的理论和方法,对案例进行分析。检索SCI、EI、CNKI等多数据源的个人科研数据并清洗、去重、中英文
[目的/意义]通过对中美招聘广告进行对比,了解中美信息分析师职业能力发展的程度和差异,从而对国内信息分析师的培训和发展提供建议。[方法/过程]抓取智联招聘和Career Build
已知一个物体的浮沉情况,若改变相关条件,则物体的浮沉情况有何变化?一般有以下几种情形: 1.若p物、p液都不变,则物体的浮沉情况不变例1 一均匀实心物体恰能悬浮在水中,若将
针对传统推荐策略偏重准确性而忽视个性化的缺陷,文章引入物理动力学中的热传导能量扩散理论,实现面向用户小众化需求的多样性和新颖性推荐。文章在阐述社会网络环境下用户小
[目的/意义]国外对弱信号的研究已较为广泛,国内还尚处起步阶段。文章希望通过对文献的梳理,了解弱信号研究的现状和演进过程,为后续研究奠定基础。[方法 /过程]对弱信号研究
文章研究的目的是从众多非结构化的网络文档中抽取出与某一主题事件相关的各种信息,对信息进行合并、提取,然后依据相应的规则填槽到主题事件框架槽中,供用户进一步的查询提
《情报理论与实践》由中国国防科学技术信息学会和中国兵器工业集团第二一〇研究所联合主办。《情报理论与实践》始终坚守一个正确的定位,一个明确的办刊宗旨,鲜明的办刊特色
[目的/意义]针对传统的情感词词典构造方法对新词判断准确率不够理想,领域拓展性较差等问题,提出基于句法依赖规则和词性特征的情感词识别模型。[方法/过程]以京东商城iPhone