论文部分内容阅读
随着互联网和移动技术的快速发展,微博作为一种新兴的信息交流媒体形式,发展速度很快,影响力日益增强,已经成为人们不可或缺的一种交流沟通、信息传播的手段和媒介。微博信息已成为舆情预警、事件监测、智能系统等领域的重要数据来源,研究微博的信息处理技术有着重大的应用前景和市场价值。本文针对微博的长度短、传播快等特点,主要研究了微博短文本的语义扩充和热点发现方法。 针对微博短文本的数据稀疏问题,论文研究了微博的语义扩充方法。首先分析微博内容的语义特征,以微博用户类型为基础将微博分为六种类型:信息发布型微博、日志型微博、分享型微博、转发型微博、评述型微博和互动型微博。然后以与舆情分析密切相关的信息发布型微博为研究对象,提出了一种基于转发评论的微博语义扩充模型,将微博有效评论信息用于微博的语义扩充,改善了微博的数据稀疏问题。微博分类性能评测结果显示,该模型提高了微博的分类性能。 在微博短文本的热点发现研究中,首先给出了微博噪声数据过滤方法,用于低信息量微博的过滤,然后利用微博文本的语义扩充信息,对热点发现的特征选择、特征加权和文本相似度计算三个阶段进行了优化,提出了改进的SinglePass聚类话题检测算法,并在此基础上给出了话题热度计算模型。最后通过实验验证了论文所提方法的有效性。