主题建模技术在文本挖掘中的研究与应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:shen648491077
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代数据的爆炸式增长,为人们发现隐藏在海量数据中的知识,实现数据驱动的科学决策提供了宝贵机会。文本数据作为广泛存在的一种数据类型,蕴藏了大量待发现的知识。文本挖掘技术即为理解文本数据的一系列智能学习技术,在这之中,主题建模技术不但可以自动发现文本集主旨内容、相似词组、相似文档等人工难以实现的任务,而且已成为完成其它文本挖掘任务的重要手段。主题建模技术中仍存在大量待解决的问题,本文即关注主题建模技术在文本挖掘中的研究与应用。  本文首先关注的是多文本集环境下的主题建模技术。本文通过对主题建模机理的研究,识别出了导致主题建模结果不佳的一种重要类型的词语,称为主题模糊词。主题模糊词不能像停用词一样可以根据一张通用的停用词表删除,因为主题模糊词在每个文本集中因文本集主旨不同而不同,而且对于主题结果仍有一定的贡献。在第三章中,本文的目标即在于自动消除主题模糊词的影响。本文提出了主题模糊度这一指标,并分别在单文本集与多文本集环境下研究了其计算方法。在多文本集环境下,本文以波利亚桶为工具,提出了结合主题模糊度的主题模型,同时提出了支持可持续学习范式的迭代算法。本文在两个真实数据集上进行了主题模糊词辨识与主题结果生成等实验,实验结果表明本文提出的方法取得了显著的提升效果。  在第四章中,本文关注多文本集下的层次主题建模技术与知识的自动挖掘。层次主题建模技术不但可以发现主题,而且还可以将主题与词语按照所表达语义的宽泛程度组织成树状的层次结构。作为一种非参数贝叶斯学习问题,现有的层次主题建模方法得到的结果中会包含不合理的主题与层次结构。为解决这些问题,本文提出了基于知识的层次主题模型,并设计了自动的知识挖掘算法。可以从多文本集层次主题结果中挖掘共享的知识,并以波利亚桶为工具,利用这些知识得到更好的层次主题结果。本文还提出了一种支持可持续学习范式的迭代算法。本文收集了两个新的多文本集数据集,各包含20个文本集。本文在两个数据集上进行了充分的实验,实验结果表明,本文所提出的模型与算法显著提高了主题质量,并得到了结构合理的层次结构。  本文继而关注的是在个性化推荐中,主题建模技术在用户生成文本上的研究。现有的个性化推荐工作过于依赖以评分为代表的用户反馈记录。相比较于评分,评论、标签等用户生成文本可以承载更丰富的信息,不但可以反映用户喜好与物品特征,而且可以解释用户的购买行为。而现有的相关工作只关注一种类型的文本,失去了发现这些文本之间共同性质的机会。在第五章中,针对这些问题,本文将不同类型的用户生成文本组织成统一的形式,并利用主题建模技术,从用户生成文本中学习得到了物品的主题相似性与用户的主题相似性。继而,分别提出了针对物品与用户的基于主题的正则项,并以矩阵分解方法为工具,提出了两个新的推荐预测模型。在三个真实用户生成文本集上的实验表明了本文方法的有效性。  第六章中,本文继续关注主题建模技术在用户生成文本上的研究。针对第五章中所提出方法的缺点,本文基于协同主题回归方法,提出了一个完全贝叶斯生成模型,将用户主题生成、物品主题生成、用户对物品的评分预测三个任务统一到一个统计模型中,并给出了完整的模型生成过程。在模型中,不同类型的用户生成文本仍然以统一的形式利用。在参照已有模型解法的基础上,本文提出了一个综合变分推断、期望最大化与梯度下降的参数求解方法。在三个真实数据集上的实验,一方面表明了所提出的模型在评分预测上的有效性,另一方面也表明了模型在主题生成上的有效性。同时,本文还考察了在“冷启动”环境下模型的预测能力。多组参数敏感性实验也表明所提出的方法对参数取值的强适应性。  最后,总结了全文,并讨论了下一步的工作,包括多文本集环境下的非参数贝叶斯学习等。
其他文献
该文紧密结合Lotes Notes/Domino开发环境的特点,充分利用其在网络功能和安全性方面的卓越性能,探索出了一套适合在Lotus Notes/Domino上开发工作流应用软件的方法.该方法从
随着人们步入信息时代,人们的日常生活及工作已越来越离不开各种信息数据的处理。日益增长的信息存储量,庞大的用户查询次数,拥塞的网络都使得数据的查询和执行效率成为了一个瓶
该文先将动态车辆视频压缩图像采集到计算机中,并实现了自动将其转化为静态图像序列.经过噪声滤除后,该文采用了一种边缘加强和图像相三的算法,可以把车辆从复杂背景中提取出
随着互联网的快速发展,海量、分布、异构、动态变化的各类信息不断涌现。如何从这些海量信息中挖掘出用户感兴趣的知识,成为当前研究的重点之一。主题模型做为一种近些年兴起的
随着互联网技术的迅速发展,网络承载的业务数量日趋庞大,种类日趋复杂。与此同时,用户对业务主观要求的日益提高,对网络如何有效保障业务的服务质量(Quality of Service,QoS)提出
统计机器翻译是近年来自然语言处理领域最受瞩目的研究热点之一,具有重要的学术研究价值和广阔的应用前景。目前统计机器翻译已经经历了基于词的模型、基于短语的模型、基于句
该文基于黄等所提出 的识别方法,通过定义一类更广泛的隶属函数,获得了含有可调参数的分类器,从而将黄等的分类器作为该文方法的一个特例.借助投影算子理论、子空间理论,对
随着信息技术的发展,大量信息充斥着各类互联网平台,如电子商务平台,社交网络平台和在线教育平台等。而人们精力有限,只能处理非常有限的信息,这就是信息过载问题。为解决这一问题
该文论述了作者在硕士学位论文工作期间在基于Web 的瘦客户计算领域所做的研究工作和实践工作,主要工作围绕着湖州市电力局分布式物资管理信息系统中的两个应用:查询和企业报
近年来,无人机技术发展迅速,广泛应用于军事和民用领域。随着应用的推广,人们对无人机的自主性和智能性提出了更高的要求。无人机实现自主飞行的先决条件是其具备有效的同步定位