论文部分内容阅读
随着Web2.0技术以及智能移动终端的快速发展,以微博、微信和各种问答社区为代表的社交类应用出现了爆发式的增长。在这些社区中,用户们每天都会发布大量的信息,而由于使用时间碎片化等原因,短文本在这些应用产生和积累的信息中占据了很大的比重。对这些短文本进行自动或半自动的分类不仅可以帮助用户快速找到自己感兴趣的内容,缓解社交网络中的信息过载问题;还可以为用户行为分析、广告推荐、舆情监控等其他技术提供数据基础,充分的发挥大数据处理技术的威力。 与网页、新闻等常规文本相比,社交网络中的短文本长度很短,导致依据短文本数据集自身计算得到的特征空间往往高度稀疏,不利于分类器的训练;除此之外,由于社交网络中的短文本往往由用户撰写和发布,其用词相对随意,存在着大量的新词,这些新词对分类的影响在短文本长度偏短的情况下被进一步放大,如果处理不当也会导致分类效果的下降。为解决上述问题,论文在国家科技支撑计划项目、博士点基金项目、浙江省重点科技创新团队自主设计项目等相关研究课题的支持下,围绕着面向社交网络的短文本分类问题开展研究,主要工作包括: (1).提出了一种面向中文社交短文本的新词发现方法 新浪微博是一种典型的社交短文本,针对其中存在大量中文新词无法识别,进而造成分词不准确的问题,提出了一种基于时域信息的中文新词发现方法。该方法根据短文本分类的特点对新词进行了定义,并分析了社交网络中主要的新词种类;考虑了社交短文本区别于常规文本而独有的时间戳信息,分析了连续字符串在时域上的统计特征变化与其成词性的关系,定义了基于时域信息的动态特征对连续字符串的成词性进行判定;与现有的不考虑时域信息的静态特征相结合后训练了基于条件随机场的中文新词标注器。实验结果表明,该方法能够对社交短文本中的新词进行准确的识别,有效地克服了社交短文本中字符串重复频次过低给新词发现带来的困难,并且可以通过在分词过程中考虑这些新词而间接提高短文本分类的效果。 (2).提出了一种基于特征空间优化的短文本分类方法 短文本长度较短、特征矩阵稀疏的特点是造成分类效果下降的最重要的原因之一。针对短文本特征选择过程中的特征稀疏问题,提出了一种基于特征空间优化的短文本分类方法。在该方法中,分析了短文本在特征选择方面的独有需求,从词汇的特征性和普适性两个方面定义了短文本特征词的选择标准,设计了对应的统计参数从上述两个方面对词汇是否能够作为特征词进行了度量,从全局最优的角度建立了特征向量计算所需的特征空间;给出了基于互信息的空缺样本特征向量构建方法,保证了数据集中的所有样本都能够在一个已知的特征空间内找到语义接近的特征向量对其进行表示。实验结果表明,该方法能够有效地解决由于短文本长度过短带来的特征稀疏问题,增加了代表不同样本的特征向量之间的维度交集,在不使用任何外源知识的情况下提升了短文本分类的效果。 (3).提出了一种基于伪相关反馈的短文本扩展与分类方法 短文本由于自身长度的限制,往往存在着用词单一、语义不完整等问题,为解决这些问题,提出了一种基于伪相关反馈的短文本扩展与分类方法。在该方法中,引入了互联网语料作为对短文本进行扩展的外源知识库,使用伪相关反馈技术借助互联网信息对短文本进行了语义相近的扩展,克服了由于短文本长度过短带来的同义异形词的出现频次过低、语义完整性不足等困难;对现有的扩展语料特征提取方式进行了改进,提出了一种局部特征和全局特征相结合的扩展语料特征提取方法,实现了对短文本样本的全面、准确的特征表示。实验结果表明,该方法可以有效地提高特征矩阵密度,在不改变短文本原语义的情况下获得维度更加丰富的特征向量,与其他使用外源知识库的短文本分类方法相比,也取得了更好的分类效果。