基于预训练语言模型的微博情感分类研究

来源 :南华大学 | 被引量 : 2次 | 上传用户:Dark_tomato
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本情感分类是对带有情感色彩的主观性文本进行分析、处理、分类的过程。作为文本的主要形式,微博文本的情感分类是文本情感分类的热门研究方向,在个性化推荐、舆情分析等方面具有广泛应用。微博文本存在表达随意、中英文混合等问题,情感分类很难确定。预训练语言模型BERT(Bidirectional Encoder Representation fr om Transformers)基于大语料库的无监督学习,挖掘文本中复杂的语义信息,可对微博文本进行特征表示,用以提升微博情感分类的效果。本文主要包括两点工作:(1)针对中英文混合微博文本的情感分类,提出一种基于预训练语言模型的混合语种微博文本情感分类模型。该模型使用机器翻译将微博文本扩充成混合语种、中文、英文三个版本数据集,通过对应的三个预训练模型进行特征提取,将三组特征结合起来通过Softmax层进行情感的分类。模型F1值(精确率与召回率的调和平均数)与单语言BERT模型相比提高1.82%。(2)针对BERT模型在情感分类任务中采用CLS(句子起始符号)位置上的输出作为句子特征表示,无法充分表达句子特征的问题。提出一种基于多头注意力的BERT多层特征融合方法。引入多头注意力对BERT模型中12层隐藏层的输出进行权重计算与隐藏层输出进行融合,通过Softmax层进行情感分类。基于多头注意力的BERT特征表示方法与BERT特征表示方法相比,在SST(The Stanford Sentiment Treebank)数据集中情感分类准确率提高了3.39%。模型的不足在于只针对预训练语言模型的最后一层进行微调,考虑对预训练语言模型的所有层进行微调。针对微博文本数据集的扩充方法,考虑加入同义词替换、扩句、缩句等更多的数据集扩充方法。
其他文献
平衡施肥的技术核心是确定准确可行的施肥参数。田间小区生物试验结合耕土壤养分测试,运用相关分析原理,对不同参变量进行优化选择,确定了因土定产、以产定肥配方施 的几个主要
苯酚是造纸、炼焦、炼油、塑料、农药、医药合成等行业生产的重要原料和中间体.但其具有极大毒性,对环境及人类健康危害非常严重,因此,对含酚废水的处置引起了环境科学领域极
会议
时代在发展,社会在进步。温州日报报业集团改革开放二十多年来也发生了令人瞩目的变化,这其中有事业上的,也有报纸形式上、内容上的巨大变化,一个重要的方面就是媒体队伍的变化。
随着报纸出版技术的两次重大变革,报纸出版已经全面走上了数字化道路。但每个环节自成体系,相对独立封闭,造成各个环节之间相互衔接与配合时,存在报纸版面内容的安全隐患和流程上
全国凿岩机械与气动工具标委会(以下简称凿标委)四届五次年会暨标准审查会议于2010年10月28~30日在江苏省苏州市召开,天水凿岩机械气动工具研究所所长、凿标委主任委员宋肃庆,秘
目的:探讨Ⅰ期子宫内膜病手术切除的适当范围。方法:以31例Ⅰ期子宫内膜癌手术标本的病理检查结果进行回顾性分析。结果:在31例病检结果中,有盆腔淋巴结转移者4例(12.9%),其中ⅠA期2例
鉴于使用多年的闸墩式扳道器操作笨重、可靠性差,兖州矿业(集团)公司济宁二号煤矿根据集成电路、防爆传感器和遥控技术使用日臻成熟的情况,结合煤矿井下现场使用条件。研制出在煤
品牌一词来自西方,1978年版《现代汉语词典》里还没有“品牌”一词。改革开放后,西方品牌产品大举进入,带动起国内品牌盛装登场,于是2002年增补版《现代汉语词典》将约定俗成的“
最近,兖州矿业(集团)公司南屯煤矿煤矸石热电厂对双螺杆空压机的运行及维护技术进行了总结与分析.对国内同行具有很好的参考价值。该厂的三期、四期工程共配套12台英格索兰空气压