论文部分内容阅读
本文的研究重点是信息检索系统的定制日志数据建模理论和方法。在信息检索系统中记录的日志数据具有及时性和简易性等特点。通过定制日志的方法,捕获信息检索系统用户访问行为,目的是通过一种提高数据质量的方法,运用数据挖掘技术,提升信息检索系统功能和服务能力,包括提高信息检索系统架构管理能力,提升系统用户使用体验,增加服务的多样性,提高预测和决策功能精度,减少数据治理开销。主要包括以下几个方面:
综述部分对当前日志挖掘应用研究,分析日志数据质量的重要性。信息检索系统服务,网页内容丰富性和日志格式的局限性为定制日志建模提供了实现的可能性。推荐系统是一种应用日志挖掘技术为用户提供个性化的典型应用,论文对推荐系统理论和技术进行研究,尝试通过定制日志的方法提供推荐系统的精度,进而提高个性化服务质量。
理论支持研究部分提出了定制日志建模的理论依据和方法。建模依据为定制日志提供指导方法。其中,语言学依据为日志格式的设计提供了具体的解决方法,类似于语言学的语法结构更容易让日志使用者理解和使用;软件工程学从计算机应用软件方面为定制日志建模提供了技术可行性的证明。建模理论和方法为定制日志提供具体的实施步骤。其中,建模理论部分限定了具体信息检索系统可以采集的日志数据对象、日志格式采用的模型类型、建模采用的方法和日志数据用途;建模步骤分为2部分:信息检索系统及用户行为分析是前提,建模过程分为3个步骤,即概念建模、逻辑建模和物理建模。
信息检索系统及用户行为研究部分,重点研究了信息检索系统模型服务类型的划分及其适用范围,用户访问行为和信息检索系统可访问对象及特征,并总结了信息检索系统业务规则和流程。为了能够在实际系统中应用,该部分还研究了推荐系统技术和算法,以分析定制日志建模的适用性。
建模实施部分将这3个步骤进行展开,分别论述了信息检索系统定制日志的概念模型、逻辑模型和物理模型的模型、形式化表示和验证方法。
通过信息检索系统的实例,具体分析了定制日志数据建模方法的实现和性能评价。并通过聚类实验证明定制日志模型在推荐系统应用发现用户共同兴趣的可用性。
本文研究的贡献有3点:(1)本文系统的研究了信息检索系统定制日志数据建模的理论和方法;(2)本文提出的定制日志数据建模理论的方法,为解决日志数据的治理、使用和扩展提供了具体的指导;(3)本文定制日志数据建模在个性化应用中的研究部分,为从根源上提高个性化推荐系统精度方面提供了有益的方法。因此,本文的研究形成了一套完整的理论体系和方法论。