微博类短文本语义扩充与热点发现方法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:gjb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和移动技术的快速发展,微博作为一种新兴的信息交流媒体形式,发展速度很快,影响力日益增强,已经成为人们不可或缺的一种交流沟通、信息传播的手段和媒介。微博信息已成为舆情预警、事件监测、智能系统等领域的重要数据来源,研究微博的信息处理技术有着重大的应用前景和市场价值。本文针对微博的长度短、传播快等特点,主要研究了微博短文本的语义扩充和热点发现方法。  针对微博短文本的数据稀疏问题,论文研究了微博的语义扩充方法。首先分析微博内容的语义特征,以微博用户类型为基础将微博分为六种类型:信息发布型微博、日志型微博、分享型微博、转发型微博、评述型微博和互动型微博。然后以与舆情分析密切相关的信息发布型微博为研究对象,提出了一种基于转发评论的微博语义扩充模型,将微博有效评论信息用于微博的语义扩充,改善了微博的数据稀疏问题。微博分类性能评测结果显示,该模型提高了微博的分类性能。  在微博短文本的热点发现研究中,首先给出了微博噪声数据过滤方法,用于低信息量微博的过滤,然后利用微博文本的语义扩充信息,对热点发现的特征选择、特征加权和文本相似度计算三个阶段进行了优化,提出了改进的SinglePass聚类话题检测算法,并在此基础上给出了话题热度计算模型。最后通过实验验证了论文所提方法的有效性。
其他文献
该文对非负矩阵中具有众多应用背景的逆M矩阵与完全正矩阵进行了较详细的研究,并把这类矩阵应用于判定Hopfield神经网络的全局稳定性,与此同时,较系统地讨论广泛应用于数值计
高校校园媒体作为高校信息传播的载体,是校园文化和校园服务的重要组成部分,在学校内外宣传、师生意见表达、素质教育实践等方面无不发挥着积极重要的作用。但作为信息传播与
在有限群论中,利用不动点子群的性质来研究群本身的结构是一种十分行之有效的方法,该文正是在这种思想指导下展开工作.ξ3.主要研究了带有素数阶自同构的不动点子群对群本身
荞麦适应很强,对地力要求很宽松,易种易管,生长周期短,全生育期2~3个月就可收获一季,亩产值超过一般的粮食作物,是农业种植业结构调整的一个好项目。在有条件的地方或粮食不足
学位
过度地流血和过量地凝血都会产生病理现象,因此理解凝血过程并且设法对凝血进行控制在医学和临床上具有重要地位.TFPI是一种Kuntize类型的抑制剂,它对由组织因子启动的凝血具
本篇论文主要研究了经典单稳态反应对流扩散模型两类整体解的存在性和一类退化的反应对流扩散模型临界波速行波解的全局渐近稳定性.  全文共分为三章.第一章主要介绍反应对
全文共分三部分.第一部分是前言,介绍了变网格有限元方法的有关背景知识,前人研究工作及成果,该篇论文研究的目的、意义、获得的结论.第二部分考虑网格任意变动的有限元方法.