语料库扩展及情绪分析的微博文本情感分类技术研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:wskiqpk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博平台能够提供海量数据,且数据更新速度较快,吸引了大批研究人员对微博进行研究,基于文本的情感分析技术在微博平台中的研究成果更是层出不穷。但在中文情感分析领域中,权威、优质的已标记中文数据集较少,导致对中文文本情感倾向判断不准确。另外,大多数研究往往只通过文本数据中的事件和观点来预测用户情感,而忽略了用户的情绪因素,影响了情感分析效果。由于已标注的权威中文数据集相对较少,能够提取并分析的文本信息少,预测准确率也随之变低,论文提出了语料库扩展的情感分类算法(Data Expansion Sentiment Analysis,DESA)。DESA算法首先通过情感词词典、同义词词典和反义词词典进行语料库扩展。在语料库扩展过程中,对于积极和消极数据,按照反义词词典替换情感词;对于中立数据,按照同义词词典替换情感词,构造扩展语料库文本。然后对已扩展的微博语料库进行分类处理,预测原始语料库的情感极性。实验证明通过使用已扩展的微博语料库,情感分类技术的准确率得到了提高。传统文本情感分析技术只分析了微博语料库的文本中的事件和观点,并未考虑文本中所包含的用户情绪状态。论文提出基于情绪的文本分类算法(Emotion Text Classification,ETC),ETC算法首先获取中文情绪词典,对微博语料库文本中紧张词和放松词进行检测,然后提取文本的紧张强度和放松强度作为新的情感特征,并结合DESA算法的分类结果,共同预测原始语料库的情感极性。实验证明,ETC算法的分类效果更准确。
其他文献
随着我国民主化建设进程的加快,提倡和保障公众参与社会公共事务尤其是基层事务,正逐渐受到国家和各级政府的高度重视。目前,公众参与社会各领域事务的现状各不相同,所受影响
在高校课程体系建设现实要求和社会发展需求的双重推动下,我国学术型教育学博士研究生的培养质量越来越受到社会关注。博士生课程设置直接关系着博士生培养质量,如何借鉴美国
人既是安全生产的主体.又是安全生产的关键因素。新汶矿业集团华丰煤矿恪守“创建安全型矿井.必须实现人的本质安全;实现人的本质安全.重在打造本质安全型矿工:打造本质安全型矿工
目的 探讨十二指肠低张造影及螺旋CT对十二指肠肿瘤的诊断价值。方法 对儿例小肠肿瘤的病人分别行以上两种检查,检查前均肌注654—2以减少肠管蠕动,前者口服适量钡剂,进行低张造
我国著名儿童教育家陈鹤琴曾明确指出,鼓励与惩罚同属一种教育方法,其实质在于刺激学生更好地学习,而它在课堂教育教学中能否发挥其积极作用,关键在于教师的控制度。小学阶段
手性药物是新药研发的一个主要方向,由于其疗效高、付作用小、开发风险低,日前倍受关注。左舒必利(levosulpinde)是舒必利的左旋对映体,系在欧洲向世界范围均巳广泛用于临床的苯甲
项目简介:该品由日本山之内制药公司开发,高选择性a-1肾上腺素能受体拮抗剂,对主要分布于前列腺及其周边平滑肌组织中的a-1A受体作用最强,a-1D受体次之,对主要分布于血管壁的a-1B
鉴于我国现代化城乡建设的高速发展,建筑用砂需求量巨大,消耗大量的不可再生的天然资源,不仅造成资源枯竭,也严重的破坏生态环境。因此,采用工业固废取代天然资源意义重大。
我们中国人酿出的酒也真经斟,从古斟到今,源远流长,从不断流。