论文部分内容阅读
随着互联网技术的迅猛发展和快速普及,人们在网络上的活动日益频繁,导致互联网数据爆炸式增长,特别是海量的非结构化文本和无标签的文本,包括电子邮件,社交媒体,新闻报道和电子商务等。如何有效地分析和处理海量的非结构化文本数据,迅速、精准地挖掘出有效的语义信息,成为文本智能处理研究领域所面临的巨大挑战之一。大量研究工作致力于使用无监督学习的方式,比如话题模型,对非结构化文本进行分析。然而,文本信息涉及的各个领域,具有不同的统计特征,同时,文本语义分析涵盖多种分析应用,各类应用的侧重点和目标也不尽相同。例如在舆情监测领域模型需要关注语义在时间上的演化,在社交媒体上的语义挖掘则着重处理短文本建模,而以用户作为出发点的应用如个性化推荐系统更重视基于用户兴趣点的细粒度分析,传统的话题模型难以满足各类分析任务,因此,为解决互联网海量文本数据带来的各类问题,不同的变种话题模型应运而生。
本文在基于话题模型的文本语义分析的基础上,针对话题动态演化,短文本话题建模和基于用户兴趣点的有针对性挖掘这三个应用方面进行研究。具体研究内容如下:
(1)在话题动态演化方面,本文提出了一种使用深度学习算法进行基于语义连接的话题演化框架。为解决现有方法因过度依赖话题模型进行演化分析带来的若干问题,包括:预设话题数目导致话题抑制和冗余话题过多的现象,忽略话题内容变化程度导致的话题质量低和无法快速响应话题演变。我们引入滑动窗口策略连接相邻时间片中具有强语义相似性的文档,完成语义连接图。然后通过深度学习算法DeepWalk把语义连接图的拓扑关系转换为语义连接特征,这里学习到的语义连接不仅表示文档之间内容的相似性,而且还表示时间上的衰减性。因此,使用语义连接特征来获取话题可以获取高质量话题,并对话题演化快速响应。此外,为避免预设话题数目带来的不良影响,使用基于密度的聚类算法来自适应话题数目。实验结果验证了该框架的有效性。
(2)在短文本话题建模方面,本文提出了结合分布式词嵌入表达的短文本话题模型,即基于注意力分割的话题模型。相比现有模型以直接的方式将辅助信息和话题建模相结合,本模型将人的关注力和阅读习惯加入到短文本语义分析中来提升短文本话题模型的建模效果。我们不仅将词嵌入作为补充信息,同时还将短文本文档按照其接收到的注意力分割成具有相似注意力信号的相邻词语片段,并且每一个片段都分配一个话题,从而保证每个文档可以有多个话题。实验结果表明,该模型在话题一致性和文本分类方面都优于现有技术。
(3)在基于用户兴趣点的有针对性挖掘方面,本文提出了基于核心词对的有针对性话题模型。随着互联网上存在的海量文本日益普遍,其包含的信息量与用户有限的兴趣范围越加不对等,有针对性的话题建模成为了一项越来越重要的任务。现有方法由于其固有的假设和策略而遭受诸如话题丢失和话题抑制之类的问题,同时现有方法忽略了计算效率的重要性。为此,引入核心词对的概念,在词对级别进行预处理和建模分析。从技术上来说,本模型根据用户提供的关键词筛选出与其具有强关联的核心词对,并判断核心词对是否与用户提供关键词语义相关。在九个真实数据集上的实验表明,该方法在效率和有效性方面都优于现有方法。
本文在基于话题模型的文本语义分析的基础上,针对话题动态演化,短文本话题建模和基于用户兴趣点的有针对性挖掘这三个应用方面进行研究。具体研究内容如下:
(1)在话题动态演化方面,本文提出了一种使用深度学习算法进行基于语义连接的话题演化框架。为解决现有方法因过度依赖话题模型进行演化分析带来的若干问题,包括:预设话题数目导致话题抑制和冗余话题过多的现象,忽略话题内容变化程度导致的话题质量低和无法快速响应话题演变。我们引入滑动窗口策略连接相邻时间片中具有强语义相似性的文档,完成语义连接图。然后通过深度学习算法DeepWalk把语义连接图的拓扑关系转换为语义连接特征,这里学习到的语义连接不仅表示文档之间内容的相似性,而且还表示时间上的衰减性。因此,使用语义连接特征来获取话题可以获取高质量话题,并对话题演化快速响应。此外,为避免预设话题数目带来的不良影响,使用基于密度的聚类算法来自适应话题数目。实验结果验证了该框架的有效性。
(2)在短文本话题建模方面,本文提出了结合分布式词嵌入表达的短文本话题模型,即基于注意力分割的话题模型。相比现有模型以直接的方式将辅助信息和话题建模相结合,本模型将人的关注力和阅读习惯加入到短文本语义分析中来提升短文本话题模型的建模效果。我们不仅将词嵌入作为补充信息,同时还将短文本文档按照其接收到的注意力分割成具有相似注意力信号的相邻词语片段,并且每一个片段都分配一个话题,从而保证每个文档可以有多个话题。实验结果表明,该模型在话题一致性和文本分类方面都优于现有技术。
(3)在基于用户兴趣点的有针对性挖掘方面,本文提出了基于核心词对的有针对性话题模型。随着互联网上存在的海量文本日益普遍,其包含的信息量与用户有限的兴趣范围越加不对等,有针对性的话题建模成为了一项越来越重要的任务。现有方法由于其固有的假设和策略而遭受诸如话题丢失和话题抑制之类的问题,同时现有方法忽略了计算效率的重要性。为此,引入核心词对的概念,在词对级别进行预处理和建模分析。从技术上来说,本模型根据用户提供的关键词筛选出与其具有强关联的核心词对,并判断核心词对是否与用户提供关键词语义相关。在九个真实数据集上的实验表明,该方法在效率和有效性方面都优于现有方法。