论文部分内容阅读
随着web技术的快速发展,网站的交互性越来越强。人们开始从单纯的信息接收者,转变为信息的生产方。网络上存在着大量的文本数据,并且每天都在不断增加。比如facebook等社交媒体上用户发表的状态、淘宝等电商网站上买家的评价等。 这些丰富的网络应用,给用户提供了一个表达自己想法的渠道。仔细观察它们所包含的文本数据,会发现它们有一个共同的特点,那就是都表达了用户的心理活动。而情感的正负面倾向,则是一种最重要也是最直接的心理活动。对文本的情感极性进行自动化的分析,这项技术有着广阔的应用前景,如“商业智能”、“广告投放”、“政府舆情监控”等。 针对文本的情感极性这一特定的分类目标,文本的研究内容主要包括:特征工程、词向量、模型融合三个方面,主要的贡献包括: 通过研究已有的语义词典,提出了合适的方法从中抽取适合文本情感分类的特征。首先从理论上分析了方法的可行性,并设计了合理的实验。实验结果表明,与普通的多元语义特征相比,新加入的特征能够明显提升分类的准确率。 另外,针对句子级别的文本提供的上下文信息较少,从而分类准确率不如段落文本高的现状。我们采用了更为复杂的神经网络算法Recursive Neural Network,它通过语法分析将句子组织成一棵语法树,并通过BP神经网络不断迭代得到最终的句子向量表示进行分类。通过改进原始RNN网络的词向量初始化步骤,以及修改网络结构,我们最终得到了以更短的时间得到更好的分类准确率的结果。既提高了算法的分类效果,也缩短了其训练时间,增强其在实际工程中的应用价值。 最后通过使用合适的模型融合方法,将神经网络算法的结果与人工特征工程的结果相结合,进一步提高了算法的分类准确率。