基于朴素贝叶斯模型的虚假新闻过滤算法研究

来源 :大经贸·创业圈 | 被引量 : 0次 | 上传用户:zz123zz123zz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】 社交媒体是一个高度开放和自由的互联网信息传播平台。随着信息媒体数量的增加,随着自媒体的出现,每个人都可以在微信微博等平台上发布和接收信息。由于信息量巨大,准入和访问机制低,给信息交流带来了极大的便利,同时也出现了大量的谣言。虚假新闻的负面效应极大地影响了国家和社会的和谐稳定和个人日常生活。因此,如何自动有效地识别谣言成为相关领域的研究热点。针对日常中的假新闻问题,提出一种自动识别虚假新闻的办法,该方法利用计算词向量相关度,结合朴素贝叶斯模型。实验结果显示,该模型在45548个数据集上,能够有效识别虚假新闻,验证所提出的方法的可行性和有效性。
  【关键词】 谣言识别,机器学习,朴素贝叶斯
  前 言
  自从移动互联网2.0时代的到来,中国网民数量开始极具增长,据统计,中国网民数量如今已突破八亿。互联网给人们带来便利的同时,也带了信息爆炸。拿新网微博来说,截至2015年,微博日活跃用户达2.2亿人,每天能够产生1亿条微博。移动互联网在给公众带来信息便利的同时,也充斥着大量谣言。如今年新冠肺炎疫情中,网络流传由于全球疫情,大米进口量会受到抑制,所以大米会涨价,导致大批民众开始囤积大米,有的甚至囤了一年也吃不完的大米,最后还需要官方辟谣。
  为了抑制谣言,学术界和相关部门都都开展过研究,例如微博由经验丰富的专家组成的辟谣团,每天24小时对微博实时监控,及时删除谣言微博,同时还采取了谣言众包的模式,每个用户都是谣言监督员,都有权力对谣言微博进行举报,但是由于个人知识有限性,普通大众可能也无法对于一些专业性问题进行辨别,同时,通过专家辟谣的方式,时效性慢,往往辟谣速度远低于谣言传播速度,而且人工判断需要耗费大量的资源。同时,随着自然语言处理的发展,学术界提出了一些解决方案。
  相关技术介绍
  1.机器学习
  谣言识别可以看作是分类问题,而在机器学习中,处理分类问题的经典方法有,支持向量机,朴素贝叶斯,决策树,逻辑回归,集成学习方法等,这些模型均属于监督学习,监督学习基于先验知识。其中,样本特征为X={x1,x2,x3....xn},表示样本集的n个特征,而通过机器学习模型学习特征,然后通过条件概率分布P(Y|X)或决策函数Y=f(x)来对新的样本进行预测或者分类,分类或预测结果就是模型的输出。
  2.TF-IDF词频计算
  TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆文件频率),根据官方文档解释,是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,即一个词语在一篇文章中出现次数越多,但是在所有文章中出现次数越少,越能够代表该文章含义。词频(termfrequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。其中,n代表该词语在该篇文章中出现的次数,n代表语料库所有词语数。某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
  3.朴素贝叶斯
  贝叶斯原理是英国数学家托马斯·贝叶斯提出的,贝叶斯提出逆向概率概念,尝试解答在没有太多可靠证据的情况下,怎样做出更符合数学逻辑的推测。朴素贝叶斯,它是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的,这个假设现实生活中能够满足的场景不多,但是这项技术对于绝大部分的复杂问题仍然非常有效。在朴素贝叶斯原理中,有三个重要的概念,即先验概率,条件概率,后验概率。假设有两个分类C1,C2。其中每個类别有属性A1,A2,A3。我们的目的是在知道一个类别的特征属性的情况下,如何判别它的类别。对待预测样本进行预测,朴素贝叶斯模型计算过程简单速度快。对于多分类问题也同样很有效,复杂度也不会有大程度上升。在分布独立这个假设成立的情况下,贝叶斯分类器效果会略胜于逻辑回归,同时模型需要的样本量更少。即使在现在这种分类器层出不穷的年代,在文本分类场景中,朴素贝叶斯依旧坚挺地占据着一席之地。同时在文本数据中,分布独立这个假设基本是成立的。而垃圾文本过滤(比如垃圾邮件识别)和情感分析(微博上的褒贬情绪)用朴素贝叶斯也通常能取得很好的效果。主要使用的类型有高斯分布型,多项式型,伯努利型。在本文中,对比了三种类型,选择精度最高的多项式分布型来进行分类预测,多项式型用于离散值模型里。比如文本分类问题里面我们提到过,我们不光看词语是否在文本中出现,也得看出现的次数。
  实验
  1.数据获取
  本文通过网络爬虫,其中主要使用python中的requests和pyquery工具包,其中requests是一种构造网页请求的工具,通过requests我们可以对网站进行模拟登录,并且获取到网页内容,在该文中主要是获取该页中的新闻文本。由于网页结构复杂,我们获取到包含新闻内容的网站源码后,还需要用pyquery对网站中的众多标签进行清洗,由于爬取的网站可能是ajax结构,所以我们还需要使用json方法来对新闻进行解析,由于爬虫工作不是本文的主要工作,所以在此不做过多赘述。我们通过爬虫采集了国内知名新闻网站同时也是谣言较多的门户网站某头条,一共收集48464篇新闻报道,其中虚假新闻23503条,真实新闻21418条。
  2.实验步骤
  1)数据读取
  使用python中的pandas工具包,将存储真假新闻的csv文件读取,为了方便后面处理,我们新增一栏作为存储清洗后的数据,命名为‘Article’,并且将真假新闻数据集合并成一个数据集,区分方式为事先标注好的True和Fake,Fake代表虚假新闻。组合成一个数据集后,我们将每一个样本随机打乱。   2)数据清洗
  剛刚我们在数据集中新建了一列命名为‘Article’,第二步我们遍历每一个数据集,通过分词工具jieba,将每一篇文章进行分词处理,并使用停用词库,去掉停用词,去停用词目的是由于中文中很多的助词比如“的”,“啊”等等,实际上这些词语对于文章的理解是不起作用的,而且这些词语在文章中频率高,所以我们需要将它们清洗掉。在做了以上两步后,我们将剩下的词语存入‘Article’列。接下来我们就需要将处理好的词向量化,在机器学习中,大部分的运算都是矩阵运算,因此需要将机器无法理解的中文转化为词向量。
  3)特征提取和向量化
  用CountVectorizer创建词袋,再去拟合刚刚清理完成的文本数据后,使用TfidfTransformer函数拟合得到特征向量是534*533矩阵,将此举证作为下一步朴素贝叶斯模型的输入。
  4)模型拟合及实验结果
  这里我们只用sk-learn工具包中的MultinomialNB函数,拟合特征向量。利用先验概率,条件概率,来计算未知类别的概率,最后得出分类结果。这就是朴素贝叶斯的算法原理,。在本文中,我们设置训练集与测试集比例为7:3,然后朴素贝叶斯分类拟合,通过结果报告看出得到的最终结果为:召回率为0.98,精度为0.96,F1值达到0.97,接近于1,F1值是召回率和精度的调和值,越接近于1说明模型分类效果越好。
  结 语
  社交媒体给消息传播提供了一个良好的平台,但同时也面临着谣言泛滥的问题,利用自然语言处理技术的发展,找到一种基于机器的谣言识别对于互联网媒体发展是非常重要的,同时也能够净化网络环境,对于学术研究和商业发展都具有应用价值。本文分析了基于机器学习的朴素贝叶斯分类模型,实现了一个自动谣言检测系统,结果证明基于大样本数据集下,实验结果证明本文提出的方法与特征的可行性和有效性。但是由于朴素贝叶斯模型本身具有一定局限性,即朴素贝叶斯有分布独立的假设前提,而现实生活中这些预测器很难是完全独立的。由于自然语言的特殊性,词与词之间往往具有关联性,不能完全将其认作两个完全独立的变量,因此该模型在谣言分类问题上还是具有先天不足,接下来的工作方向我认为应该结合更适用自然语言处理的卷积卷积神经网络,它的输出就依赖于当前的输入和之前的记忆,也就是考虑了上下词之间的关联性,可能会得到更好的分类结果。
  【参考文献】
  [1] 周志华.《机器学习》
  [2] 李航.《统计学习方法》
  [3] 顾亦然,夏玲玲.在线社交网络谣言的传播与抑制[J].物理学报,2012,61(23):238701.
  作者简介:罗毅夫,1994.09,男,汉,四川省南充市,硕士在读,云南财经大学,机器学习,推荐算法。
其他文献
【摘 要】 德国古典哲学在中国的传播与发展具有特殊的地位及典型意义,德国古典哲学传入中国之初的科学主义精神到成为马克思主义理论来源的理性指导以及中国学者言之必谈的理论典型,说明德国古典哲学成为中国人热衷的哲学研究领域有其重要的内在原因和现实诉求。从思想文化发展角度以及历史的纵深视角看,德国古典哲学在中国的发展及研究表明了中国人在面对西方哲学之中国化的合理态度以及现实需求,是中国人在自觉、自信的探索
期刊
【摘 要】 继承,目前是指依照法律或者遗嘱接受死者的财产等,在古代,死者的财产是如何被继承的呢?根据中国古代几千年的传统观点来看,古代的继承是说把死者的身份及财产传递给和自己有婚姻血缘关系的人。中国古代作为男权社会,女子究竟有没有家庭的继承权呢?女子的继承权究竟占重多少,在本文中将稍作列举。  【关键词】 古代 女子继承 继承制度  (一)中国古代女性继承权的演变  夏商西周时期,中国还属于奴隶制
期刊
【摘 要】 高校教师科研绩效量化评估是高校管理工作中十分重要的组成部分,对高校教师专业成长有着较大的帮助。而随着当前高校科研活动扩大,高校教师科研成果数量增多,如何对高校教师科研绩效做出科学评估,成为当前高校科研管理工作者重点关注的内容。本文主要基于大数据分析技术,研究高校教师科研绩效量化评估平台建设策略,希望能够为高校教师科研绩效量化评估产生帮助。  【关键词】 大数据 科研绩效 量化评估平台
期刊
我单位结合生产特点,运用绿色管理模式,激活企业发展内在动力,通过“绿色安全管理”、“绿色生产运行”、“ 绿色技术创新”、“绿色经营管理”的高效运行,推动集输泵站各系统的有机融合,提升核心竞争力。  1、绿色安全管理  (1)健全安全管理机构  成立安全管理监督站,直属于大队机关,向大队安全分管领导负责报告工作。由工作经验丰富的基层干部担任安监站站长、副站长,技术老练的技术员负责HSE资料管理。安监
期刊
【摘 要】 框架剪力墙结构建筑施工技术能够为高层建筑工程施工体系的建设提供稳定的功能性使用空间,让建筑结构的荷载力总体环境保持稳定性,再有,随着技术上的不断进步,更方便评价整体施工的工程质量,当技术不断抬高,施工效率的增加可以相对的降级成本。以下文章就框架剪力墙结构进行全面分析,在传达技术的同时,希望可以为之后的建筑施工企业提供一些有用的参考。  【关键词】 框架剪力墙结构 建筑施工 技术应用  
期刊
【摘 要】 人民是中国共产党的力量源泉和执政根基。坚守人民立场,是以人民为中心理念的生动诠释,是马克思主义唯物史观的价值向度,是中国共产党人的根本追求,更是中国特色社会主义的本质要求。为打好新冠肺炎疫情防控阻击战,我们既要高举人民旗帜、把人民群众生命安全和身体健康根本利益放于首位,又要突出群众力量、发挥其在抗击疫情中的主体作用,形成强大的人民合力,在这场“疫情大考”中为中国、为世界交出满意答卷。 
期刊
【摘 要】 线上培训是企业提质增效的有效尝试,更是信息时代促进员工继续学习成长的必然选择。本文先阐述了线上培训的特点,后分析了企业进行线上培训存在的误区,最后针对这些误区详细探讨了企业落实线上培训的有效措施,以期为研究线上培训、企业发展等相关问题的人员提供理论参考。  【关键词】 线上培训 目标进度 培训方案 培训考核  一、概论  信息技术的高速发展使得各行各业都面临了翻天覆地的变化。对于企业培
期刊
【摘 要】 在法国和英国的文化碎片中缓慢而痛苦地寻找一种权宜之计,涵盖了加拿大国内的大部分历史,特别是在19世纪。近年来,这两个碎片之间的关系有了明显的改善。但是即使在今天,过去仇恨的沉重负担也使未来的道路充满了不确定性。通过所有错综复杂的政策来追踪这种关系,是为了让我们能更清晰地看到加拿大社会的二元文化主义。  【关键词】 加拿大 文化政策 二元文化主义  1791年宪法法案看似加强了英国文化和
期刊
【摘 要】 一个思想体系的建立,往往以本体论观点为根基,拓展至认识论和伦理学,再发展出系统的方法论和其它思想部门。老子的思想体系亦是如此。其思想感发于社会现状,为寻求一个根本的解決方法而提出了有关于“道”的本体论思想,在此基础上将“道”的特点作为万物普适的规律,将其拓展到人的认识和人际关系上,最终也落实在其出发点——治世的政治方法上。本文将从老子的本体论概念“道”出发,阐述其基本内涵特质,在此基础
期刊
【摘 要】 随着我国互联网的发展,大学生网络素养问题日益凸显,表现为多元文化冲击、信息污染严重、大学生防范能力弱。新形势下将当代民航精神融入民航高校大学生网络素养提升的全过程,是民航高等院校适应其发展变化的迫切需要,提升大学生网络素养要求其具有坚定的网络政治立场、专业的网络技能还要采取校内外联动团结协作、内化大学生的网络道德。  【关键词】 民航精神 大学生 网络素养  近年来,在国家实力和人民物
期刊