面向社交网络的短文本分类研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:lgj2097
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0技术以及智能移动终端的快速发展,以微博、微信和各种问答社区为代表的社交类应用出现了爆发式的增长。在这些社区中,用户们每天都会发布大量的信息,而由于使用时间碎片化等原因,短文本在这些应用产生和积累的信息中占据了很大的比重。对这些短文本进行自动或半自动的分类不仅可以帮助用户快速找到自己感兴趣的内容,缓解社交网络中的信息过载问题;还可以为用户行为分析、广告推荐、舆情监控等其他技术提供数据基础,充分的发挥大数据处理技术的威力。  与网页、新闻等常规文本相比,社交网络中的短文本长度很短,导致依据短文本数据集自身计算得到的特征空间往往高度稀疏,不利于分类器的训练;除此之外,由于社交网络中的短文本往往由用户撰写和发布,其用词相对随意,存在着大量的新词,这些新词对分类的影响在短文本长度偏短的情况下被进一步放大,如果处理不当也会导致分类效果的下降。为解决上述问题,论文在国家科技支撑计划项目、博士点基金项目、浙江省重点科技创新团队自主设计项目等相关研究课题的支持下,围绕着面向社交网络的短文本分类问题开展研究,主要工作包括:  (1).提出了一种面向中文社交短文本的新词发现方法  新浪微博是一种典型的社交短文本,针对其中存在大量中文新词无法识别,进而造成分词不准确的问题,提出了一种基于时域信息的中文新词发现方法。该方法根据短文本分类的特点对新词进行了定义,并分析了社交网络中主要的新词种类;考虑了社交短文本区别于常规文本而独有的时间戳信息,分析了连续字符串在时域上的统计特征变化与其成词性的关系,定义了基于时域信息的动态特征对连续字符串的成词性进行判定;与现有的不考虑时域信息的静态特征相结合后训练了基于条件随机场的中文新词标注器。实验结果表明,该方法能够对社交短文本中的新词进行准确的识别,有效地克服了社交短文本中字符串重复频次过低给新词发现带来的困难,并且可以通过在分词过程中考虑这些新词而间接提高短文本分类的效果。  (2).提出了一种基于特征空间优化的短文本分类方法  短文本长度较短、特征矩阵稀疏的特点是造成分类效果下降的最重要的原因之一。针对短文本特征选择过程中的特征稀疏问题,提出了一种基于特征空间优化的短文本分类方法。在该方法中,分析了短文本在特征选择方面的独有需求,从词汇的特征性和普适性两个方面定义了短文本特征词的选择标准,设计了对应的统计参数从上述两个方面对词汇是否能够作为特征词进行了度量,从全局最优的角度建立了特征向量计算所需的特征空间;给出了基于互信息的空缺样本特征向量构建方法,保证了数据集中的所有样本都能够在一个已知的特征空间内找到语义接近的特征向量对其进行表示。实验结果表明,该方法能够有效地解决由于短文本长度过短带来的特征稀疏问题,增加了代表不同样本的特征向量之间的维度交集,在不使用任何外源知识的情况下提升了短文本分类的效果。  (3).提出了一种基于伪相关反馈的短文本扩展与分类方法  短文本由于自身长度的限制,往往存在着用词单一、语义不完整等问题,为解决这些问题,提出了一种基于伪相关反馈的短文本扩展与分类方法。在该方法中,引入了互联网语料作为对短文本进行扩展的外源知识库,使用伪相关反馈技术借助互联网信息对短文本进行了语义相近的扩展,克服了由于短文本长度过短带来的同义异形词的出现频次过低、语义完整性不足等困难;对现有的扩展语料特征提取方式进行了改进,提出了一种局部特征和全局特征相结合的扩展语料特征提取方法,实现了对短文本样本的全面、准确的特征表示。实验结果表明,该方法可以有效地提高特征矩阵密度,在不改变短文本原语义的情况下获得维度更加丰富的特征向量,与其他使用外源知识库的短文本分类方法相比,也取得了更好的分类效果。
其他文献
该文以应用广泛但成功率并不理想的管理信息系统为主要研究对象,探讨在管理信息系统开发过程中进行风险管理的问题.该文作者所做的工作有:1)对比较零碎的风险理论进行总结,对比
作为印前技术的核心,RIP--光栅图像处理器(Raster ImageProcessor),是排版软件和输出设备之间的软件部件.挂网(Screening)操作在RIP中占有重要位置,它把灰度图转换成二值网点图,
作为知识中心的重要存在形式,数字图书馆已经成为21世纪信息化发展的基础设施,从根本上改变了信息的获取、传播和利用的方式,潜移默化地改变着人们的科研、工作和生活。以人为中
随着网络家电设备的日趋复杂、多样化,对状态检测和故障诊断系统也就提出了更高的要求,由于检测手段及网络技术的发展,观测数据量比过去大为增加,有必要从这些极为丰富的数据中提
电子数据交换是实现企业内部不同的应用系统之间的集成以及企业之间的电子商务活动的一种简单可行的方案。电子数据交换的核心问题是数据交换的标准问题。对于企业内部不同的
该论文运用计算机图形学的原理,提出了一种对断层可视化处理所需的算法:两阶段估计算法.该论文首先研究了四种断层处理方法,分别是分块法、层面复原法、断层面法和断层轨迹法,
“存储墙”依然是计算机系统设计中的重要问题。随着半导体技术的迅猛发展和计算需求的日益复杂,不断增加的核数、线程数和数据集大小会对存储系统产生巨大的压力,加剧“存储墙
Internet近年来以前所未有的普及速度迅速在全球获得发展,逐渐成为一种面向话音、视频、数据和多媒体应用等多种业务的综合媒体。然而,传统IP网络由于其尽力而为(Best effort)
随着现代科学技术的飞速发展,信息技术的应用日益广泛,在卫生领域,以医院信息系统(以下简称HIS)开发应用为代表的医院信息化建设,已成为医院科学管理和提高医疗服务质量和服务水
随着网络规模和服务的飞速发展,传统的集中式管理模式越来越暴露其在性能、可扩展性、灵活性等方面固有的局限性.为此该文对基于移动agent的网络管理系统进行了深入的研究和