面向文本语义分析应用的话题模型研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:simsuns
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅猛发展和快速普及,人们在网络上的活动日益频繁,导致互联网数据爆炸式增长,特别是海量的非结构化文本和无标签的文本,包括电子邮件,社交媒体,新闻报道和电子商务等。如何有效地分析和处理海量的非结构化文本数据,迅速、精准地挖掘出有效的语义信息,成为文本智能处理研究领域所面临的巨大挑战之一。大量研究工作致力于使用无监督学习的方式,比如话题模型,对非结构化文本进行分析。然而,文本信息涉及的各个领域,具有不同的统计特征,同时,文本语义分析涵盖多种分析应用,各类应用的侧重点和目标也不尽相同。例如在舆情监测领域模型需要关注语义在时间上的演化,在社交媒体上的语义挖掘则着重处理短文本建模,而以用户作为出发点的应用如个性化推荐系统更重视基于用户兴趣点的细粒度分析,传统的话题模型难以满足各类分析任务,因此,为解决互联网海量文本数据带来的各类问题,不同的变种话题模型应运而生。
  本文在基于话题模型的文本语义分析的基础上,针对话题动态演化,短文本话题建模和基于用户兴趣点的有针对性挖掘这三个应用方面进行研究。具体研究内容如下:
  (1)在话题动态演化方面,本文提出了一种使用深度学习算法进行基于语义连接的话题演化框架。为解决现有方法因过度依赖话题模型进行演化分析带来的若干问题,包括:预设话题数目导致话题抑制和冗余话题过多的现象,忽略话题内容变化程度导致的话题质量低和无法快速响应话题演变。我们引入滑动窗口策略连接相邻时间片中具有强语义相似性的文档,完成语义连接图。然后通过深度学习算法DeepWalk把语义连接图的拓扑关系转换为语义连接特征,这里学习到的语义连接不仅表示文档之间内容的相似性,而且还表示时间上的衰减性。因此,使用语义连接特征来获取话题可以获取高质量话题,并对话题演化快速响应。此外,为避免预设话题数目带来的不良影响,使用基于密度的聚类算法来自适应话题数目。实验结果验证了该框架的有效性。
  (2)在短文本话题建模方面,本文提出了结合分布式词嵌入表达的短文本话题模型,即基于注意力分割的话题模型。相比现有模型以直接的方式将辅助信息和话题建模相结合,本模型将人的关注力和阅读习惯加入到短文本语义分析中来提升短文本话题模型的建模效果。我们不仅将词嵌入作为补充信息,同时还将短文本文档按照其接收到的注意力分割成具有相似注意力信号的相邻词语片段,并且每一个片段都分配一个话题,从而保证每个文档可以有多个话题。实验结果表明,该模型在话题一致性和文本分类方面都优于现有技术。
  (3)在基于用户兴趣点的有针对性挖掘方面,本文提出了基于核心词对的有针对性话题模型。随着互联网上存在的海量文本日益普遍,其包含的信息量与用户有限的兴趣范围越加不对等,有针对性的话题建模成为了一项越来越重要的任务。现有方法由于其固有的假设和策略而遭受诸如话题丢失和话题抑制之类的问题,同时现有方法忽略了计算效率的重要性。为此,引入核心词对的概念,在词对级别进行预处理和建模分析。从技术上来说,本模型根据用户提供的关键词筛选出与其具有强关联的核心词对,并判断核心词对是否与用户提供关键词语义相关。在九个真实数据集上的实验表明,该方法在效率和有效性方面都优于现有方法。
其他文献
3C电子产业(计算机、通讯和消费电子)属于劳动密集型产业,随着人口红利的消失,机器取代工人的需求越来越紧迫。相比于传统工业机器人,3C领域的机器人趋向于小型化、高精度及灵巧性,尤其是产品装配环节,对于机器人性能的要求更加严苛,目前面向3C产品装配的工业机器人应用尚处于探索时期。因此,本文针对3C产品装配作业的特点,搭建了一种面向3C产品装配的双模块协同机器人,并开展了协调装配策略及运动规划算法等研
得益于近代科学技术的发展,机器人时代正在到来,人们的身边出现越来越多的无人机。四轴无人机具有的高机动性、低造价、小体积、结构简单等优点,使其具有宽泛的应用领域,但无人机的局限性也阻碍了其自身的发展。随着无人机控制技术和多智能体系统理论的发展,多无人机协同技术应运而生,受到国际范围内学者的重点关注,尤其是多无人机分布式控制的关键技术——无人机编队。  本文旨在以四轴飞行器为智能体,结合多智能体一致性
学位
并联机器人具有的高刚度、高速、高加速度性能,使其非常适合食品、药品、电子产品的搬运和包装等场合。由于对并联机器人速度精度要求的提升,当机器人参数有着较大不确定性时,传统PID控制器无法达到良好的速度精度要求,易产生末端跟踪精度降低、电机力矩波动变大、机械振动等一系列问题。  本文主要研究Delta机器人的变负载运动控制。现有Delta机器人的运动控制大多不考虑负载的变化,而是在特定负载条件下调节好
近二十年来,多智能体协作控制引起了控制领域众多学者的广泛关注。其中最为基础的问题之一就是一致性问题。在多智能体系统领域,一致性即指每一个智能体在仅与自己所关注的相邻智能体进行通讯的前提下使得智能体的某一个状态量或几个甚至所有的状态量都最终达到一个相同的值。对于智能体一致性的研究有两个重要的关注点,一是智能体的动力学,二是智能体间的拓扑结构。本文主要研究智能体动力学为含有参数不确定性的二阶系统以及智
在机械、电子、材料等领域,振动测量分析一直扮演着重要的角色,随着测量目标的多样化,对测量技术也提出了更高的要求。传统振动测量在微型化,柔性化,不易接触的环境下难以满足测量要求。基于机器视觉的振动测量作为一种新的非接触测量方式,能够克服传统接触式测振工具的硬件劣势,具有广阔的应用前景。  基于目标的自然特征,研究基于SIFT(Scale-invariant feature transform)特征匹
学位
电火花线切割加工技术属于特种加工技术,因其在加工过程中不产生直接切削力,能够加工高硬度材料和复杂型面的零件,在工业生产领域被广泛利用。放电状态检测与伺服控制系统是线切割机床稳定运行的重要前提,其性能直接关系到零件的加工质量、加工效率以及加工过程的稳定性。在此背景下,本文针对电火花线切割加工间隙状态检测技术与伺服控制系统进行了研究,研制了电火花线切割加工智能控制系统。  本文通过查阅相关文献,综合阐
涡轮叶盘作为航空航天发动机的关键零部件,对发动机的性能有着重要影响。闭式整体叶盘将叶冠、叶片和轮毂整体化,减少了组装间隙,提高了叶盘性能。由于流道的半封闭性,传统铣削刀具不易进出流道,还会存在“粘刀”现象,严重降低了加工效率。电火花拷贝成型加工方式对闭式整体叶盘的加工十分有效,正逐渐成为研究热点。由于成型电极是形状复杂的刚体,涡轮叶盘电火花成型加工的一大难题就是电极在流道中的轨迹规划问题。  针对
室内定位作为一种辅助复杂飞行系统开发的重要手段,被广泛应用于多飞行器系统的研制。在室内定位过程中获得的飞行器运动学参数是非常重要的试验数据,可以被用于多飞行器协作控制与导航算法的开发、飞行器制导控制系统考核以及为飞行器控制系统性能评估。本文以多飞行器运动室内定位视觉系统研制为背景,针对汇聚式多摄像机布局条件下多飞行器的运动定位问题,提出一种飞行器运动参数精确求解的方法。并对多飞行器运动室内定位系统
学位
舵机是导弹控制系统的执行机构。它的任务是根据制导系统的指令信号,克服铰链在舵面上的气动力矩,操纵舵面或推力导向器,使导弹达到或维持正确的姿态,从而控制导弹的飞行方向。发达国家的电动舵机采用直流无刷电机作为执行器,其控制系统则用DSP控制的双脉冲调宽(PWM)。我国目前的电动舵机则仍然用直流有刷电机作为执行器,其控制系统仍然采用模拟调节器,因此研究基于DSP的电动舵机控制系统对于提高我国空间武器的技
学位
随着Internet的广泛应用和遥操作技术的发展,通过Internet控制异地的硬件设备已成为可能。Internet连接了全球的计算机,它为人们提供了分享数据、图片、影像甚至实时影像的机会,但与远程地点的真实交互还是离不开象机器人这样的智能设备。Web技术与机器人控制技术的结合,促成了基于Web的远程控制机器人概念的诞生。基于Internet网络技术的机器人遥操作平台的实现,扩大了操作的远程化距离
学位