论文部分内容阅读
本文叙述了信息检索的学科渊源和研究现状,阐明了信息检索的基本概念,比较了信息检索和数据检索、搜索引擎的异同,讨论了相关性在信息检索评估中的核心地位;介绍了几种成熟的文本信息检索方法:经典布尔方法、扩展布尔方法、向量空间方法和概率方法,着重介绍了潜在语义索引方法的技术细节。
本文的贡献有:提出了将潜在语义索引方法用于红学研究的构想;确定了评价信息检索效果的三个标准:查准率、查全率和效率,分析了查准率和查全率两者间的关系,给出了信息检索行为的形式化表示,并在此基础上作了形式化推导,在理论上得出了改善信息检索效果的途径;指出并分析了现有词频标准化方法的不足,构建了一系列改进的词频标准化公式,并从理论和实验两方面对它们作了比较。