【摘 要】
:
文本分类是自然语言处理的一个重要研究方向,它可以有效的解决信息杂乱的现象,并有助于用户发现所需的信息.特征选择和权值函数是文本分类的核心,通过对经典的TF-IDF函数和互
【机 构】
:
兰州理工大学计算机与通信学院,兰州,730050
【出 处】
:
第二届全国信息检索与内容安全学术会议
其他文献
在EBMT(Example-BasedMachineTranslation)系统中将翻译实例泛化为翻译模板,可以有效的减少实例的存储空间,提高实例的检索效率,而实例匹配更是直接关系到了EBMT系统的翻译质
面对Internet中丰富的信息资源,本文提出了一种基于互联网,实现缩略语源词组及中文翻译的自动获取方法.本文利用缩略语构词规则来提取候选词组,利用句法规则进行筛选,实现了
在信息检索中,查询与文档集的词不匹配使得查询的查全率(recall)和查准率(precision)均较低.为了提高检索效果,查询扩展是一种较好的方法.Markov网络是一种图形表示方法,它具
本文对广义向量模型进行了全面系统的介绍,对其存在的问题和不足进行了认真的讨论和分析,通过对该模型中交运算的重新定义建立了修正的广义向量空间模型,并从理论上证明了新
在基于Peer-to-Peer(P2P)的搜索技术和方法可以达到传统搜索模式所无法达到的深度和广度,具有更强的有效性和准确性,为搜索模式的进一步发展提供了新的理念和研究思路.本文首
随着Web信息的爆炸性增长,对Web信息采集的性能提出了巨大的挑战.本文介绍了天罗Web信息采集的总体结构和性能优化策略.在性能优化策略中详细分析了优雅采集、页面采集、页面
基于站点的采集器是一类有针对性的采集器,它以站点作为采集的单位.本文在总结以往工作的基础上,首先说明站点采集自身的特点,然后讨论如何提高其性能,最后是实际的系统介绍
以MPEG-7为主要技术背景的基于内容的多媒体检索,主要用来描述低层语义的问题,它的缺陷是对高级语义的支持不足,无法建立对多媒体相关行业复杂元数据的支持.本文提出了一个基
由于图像的底层统计特征与高层语义特征之间存在一道鸿沟,计算机难以直接完成基于语义的文本图像检索.因此,文本图像检索的性能很大程度上依赖于底层统计特征的提取.针对该问
针对信息检索中文档与查询之间的词不匹配问题,本文提出了一种基于局部共现的查询扩展方法LOCOOC.LOCOOC利用词项与所有查询词在局部文档集合中的共现程度来评估扩展词的质量