论文部分内容阅读
个人信息管理(PIM)是近年来一个热点的研究主题,其目的在于解决信息碎片与异构问题,但PIM自身数据框架较为复杂,较难付诸于实际应用。为改善系统的易用性,一些学者提出了PIM任务机制,作为PIM传统数据存储机制的一种补充,任务机制以用户思维方式存储、组织信息数据。在任务机制有关讨论中,任务发现是一个重点研究方向。
PIM任务发现是指利用自动化方法,找出个人数据空间隐藏的任务信息,从而将用户杂乱的数据以任务的形式组织起来。现有任务发现挖掘算法研究分散于多个领域,在讨论时通常结合了某一领域的具体应用。现有研究总结起来可以归纳为两种方法:(1)基于数据项内容关联计算的任务挖掘方法。(2)基于数据项时序关联计算的任务挖掘方法。方法一通过分析数据项间的文本数据关联,用聚类或分类的方法发现任务,但该方法未考虑用户的交互操作,忽视了任务的主观性特征;方法二通过分析数据项间的用户操作,用行为建模等方法发现任务,但在多任务并发的桌面环境中,容易造成数据划分错误。
本文通过数据分析发现,同一任务的数据项在内容与操作时间上同时具有较强的聚合性,但目前尚未出现针对个人信息管理任务数据的综合挖掘算法,遂以此为切入点,展开深入探讨。本文主要工作为:定义适于本研究的任务模型,重点探讨了三种基于数据项综合关联计算的任务挖掘改进算法,分别是:(1)基于数据关联图的稠密子图挖掘算法;(2)基于层次聚类的任务挖掘算法;(3)基于内容、时序混合向量空间的DBSCAN聚类法。试验结果表明三种算法皆具有较高的准确度,在实际环境中是有效的。文章最后总结了整个研究工作,并对后继工作作出展望。