【摘 要】
:
近年来,随着互联网与智能移动设备的快速发展,以Twitter、微博等为代表的社交媒体应用变得越来越受欢迎,短文本交互日益普遍,对海量的微博数据进行分析主题,及时获取人们关注
论文部分内容阅读
近年来,随着互联网与智能移动设备的快速发展,以Twitter、微博等为代表的社交媒体应用变得越来越受欢迎,短文本交互日益普遍,对海量的微博数据进行分析主题,及时获取人们关注的热点话题以及满足用户在大量产生的信息中查找自己的需求具有重要的现实意义。微博文本内容短小,特征词稀疏并且规模庞大,对于微博这种具有特殊特征的短文本,选取有效的方法进行主题识别,进行细粒度的主题检索,最大程度的满足用户需求是目前需要解决的重要问题。本文主要针对短文本的信息抽取开展相关研究工作,研究重点聚焦于中文微博类短文本的内隐主题提取,在现有对文本聚类和主题模型的研究基础上,针对中文微博短文本语料库,展开了相关研究。主要研究工作和成果包括:(1)对预处理后的微博语料集进行基于top-k频繁闭词集的短文本聚类,聚类过程中对频繁词集挖掘算法进行了改进,避免了 min_support的多次尝试以及频繁词集数据量巨大的问题,并且以频繁词集作为类簇的描述信息,得到微博文本的粗粒度分类。(2)针对类簇内主题不明确并且短文本存在的特征稀疏问题,结合LDA模型和BTM模型提出了一种基于词对共现LDA模型的类簇内潜在主题挖掘方法,对每篇文档的词对进行建模,提高短文本主题特征的性能,得到细粒度的类簇内隐含主题。(3)根据短文本聚类和细粒度类簇内主题挖掘相结合的思想,设计出了微博内隐主题挖掘系统,不仅能够准确的得出微博短文本的划分类簇,而且能够实现在类簇上进一步挖掘主题的目的,最终实现了对微博平台内微博信息的内隐主题的自动化提取与分类存储。
其他文献
纹理合成和转换涉及计算机图形学、计算机视觉领域等多个的研究热点,并且在虚拟现实、计算机视觉等领域都有着广泛的应用。其中为了解决纹理映射中存在的接缝走样问题而提出
为顺应新课程改革有关实现学生能力全面发展的目标,我们要着重改善教学方法,提高教学质量和课堂效率,促进学生的素质发展.想要改善高中化学课堂效率,我们不能依赖题海战术和
本文主要探究平面化绘画的发展历程及代表作品,分析自己在创作过程中学会的技法以及所思所想所感和遇到的困难,并浅析个别喜爱的艺术家,从本人的角度研究当代油画中平面化的
化学概念是化学学科的血液,在化学教学中占据较大比例.但是,在传统的高中化学教学中,教师的教学内容枯燥、教学手段落后,导致学生对化学概念的学习存在抵触情绪.化学概念是指
我国传统绘画艺术是我国宝贵的文化遗产,是千百年来无数画家和劳动人民智慧的结晶.在漫长的历史发展过程中,中国画形成了自己特有的绘画风格.中国画的“以形写神”“气韵生动
在信息检索中,网页排序是一个关乎用户体验的重要问题,在海量的数据中如何将用户最关心的网页最先呈现给用户越来越受到人们的重视。排序学习作为最新的研究热点,在网页排序
随着网络技术和视频编解码技术的发展,实时视频已广泛应用于各个领域。最新的视频编解码标准H.264/AVC能进一步降低码率和提升视频质量,为实时视频应用带来新的体验,该标准已广
浏览器扩展是一种允许为浏览器添加个性化功能的机制。然而,这一机制在极大地增强了浏览器表现能力的同时,也使浏览器暴露在了更多的攻击之下。因而,对浏览器扩展安全的研究
为了全面提高化学课堂的教学效率,全面深化新课堂改革,就要对高中化学教学理念进行创新,对高中教学课堂方法进行改进,激发学生对化学探究的热情,增强学生学习的动力.本文主要
油画作为一类独特的画种,已有500多年的发展历史,为顺应社会与时代的变革,创作油画的形式也随之产生了变化.对于绘画材料的不同选择会使油画在风格、审美、绘画语言、艺术表