微博的热点数据处理与公众关注分析

来源 :锦绣·下旬刊 | 被引量 : 0次 | 上传用户:wjp711018
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:文章在使用爬虫获得不同种类的热点数据后,提取了一些关于用户和微博间的一些基本相关数据,并用最新的spss分析软件进行清洗数据和分析软件中的数据,运用单因素方差分析法,比较不同话题分类样本和话题样本对热门微博下的粉丝数、关注数、转发数、评论数、点赞数这些观测值有没有产生显著性影响,从而研究分析出公众对哪方面的热门话题更感兴趣。
  关键词:微博;爬虫;方差分析;热门话题
  0引言
  由于热门话题内容复杂,普通网民往往缺乏对专业性较高问题的判断能力,需要在新浪微博上找到热点话题,抓取热点数据,为人们从海量信息中提取有价值的信息节省时间,正确引导普通网民思考问题的角度和趋势。对于热点研究方面角度不同,方法多样,运用于的领域也不同,本文着重关注某一方面热点数据,自建合理scrapy框架,运用于微博大量的数据爬取,实现数据的获取、查找、整理与分析。[2]
  1爬虫系统设计
  Scrapy框架用于对微博上的热门数据抓取。当爬虫程序成功登录到微博并获得微博页面后,可以解析HTML脚本并将其提取到所需的数据中。一篇热门微博文章的主要数据包括:用户昵称、用户ID、关注数、粉丝数、微博内容、转发数等。[1]使用爬虫爬取数据的主要流程有以下三步。
  1.1微博内容获取
  在微博登录方面,我们使用一种简单的方式:抓取微博登录cookie[4],然后使用cookie登录微博。这样就可以浏览某个人的微博内容了,爬取微博正文的代码如下:
  #-*-coding:utf-8-*-
  fromscrapyimportItem,Field
  classTweetsItem(Item):
  """微博信息"""
  _id=Field()#微博id
  weibo_url=Field()#微博URL
  created_at=Field()#微博发表时间
  like_num=Field()#点赞数
  comment_num=Field()#评论数
  content=Field()#微博内容
  user_id=Field()#发表该微博用户的id
  crawl_time=Field()#抓取时间戳
  1.2用户信息获取
  抓取登录微博的cookie,使用cookie登录微博后我们可以看到登录用户的个人信息。为了研究热门话题对公众的影响,我们需要确定一个微博用户作为抓取数据的起点,部分代码如下:
  classInformationItem(Item):
  """个人信息"""
  _id=Field()#用户ID
  nick_name=Field()#昵称
  gender=Field()#性别
  province=Field()#所在省
  city=Field()#所在城市
  brief_introduction=Field()#简介
  birthday=Field()#生日
  tweets_num=Field()#微博数
  1.3用户关系获取
  新浪微博用户之间存在互相关注的情况,为了方便起见,本文只对用户的粉丝进行了爬行,以了解两个用户之间是否存在关注关系。代码如下:
  classRelationshipsItem(Item):
  """用户关系,只保留与关注的关系"""
  _id=Field()
  fan_id=Field()#关注者,即粉丝的id
  followed_id=Field()#被关注者的id
  crawl_time=Field()#抓取时间戳
  微博用户关系数据表共有5列属性,采集到的用户关系信息包括:信息爬取的爬行时间、用户关注对象ID列表、用户粉丝ID列表等。
  2数据分析结果与解释
  本文把话题分类作为定类数据,关注数、粉丝数、转发数、评论数、点赞数作为定量数据进行方差分析,结果如下[3]:
  (1)分类相比较于关注数呈现出0.01水平显著性(F=40.25,P=0.00),以及具体对比差异可知,有着较为明显差异的组别平均值得分对比结果。
  (2)分类相比较粉丝数表现出0.01水平显著性(F=26.31,P=0.00),由具体对比差异可以知到,有着比较明显差异的分组平均值得分比较结果。
  (3)分类相比较转发数表现出0.01水平显著性(F=8.18,P=0.00),由具体对比差异可以知到,有着较为明显差异的分组平均值得分比较结果。
  (4)分类相比较评论数表现出0.01水平显著性(F=6.36,P=0.00),由具体对比差异可以知到,有着较为明显差异的分组平均值得分比較结果。
  (5)分类相比较点赞数表现出0.01水平显著性(F=17.91,P=0.00),由具体对比差异可以知到,有着较为明显差异的分组平均值得分比较结果。
  总结可知:各种话题样本对于关注数,粉丝数,转发数,评论数,点赞数全部均呈现出显著性差异。为了检验以上分析结果是否准确,本文把话题和话题分类这两个数据指标做成了词云图,通过词云图显示具体哪个话题或者话题分类出现的频率最高[2,5]。通过对微博热门话题关注程度的分析,发现用户在娱乐的同时也应该多去了解下国家正在发生的社会事件。
  参考文献
  [1]王海玲,周志彬.基于Scrapy框架的爬虫设计[J].软件导刊,2020,19(04):224-228.
  [2]方洁,龚立群,魏疆.基于利益相关者理论的微博舆情中的用户分类研究[J].情报科学,2014,32(01):18-22.
  [3]戴金辉.单因素方差分析中异方差的检验与修正[J].统计与决策,2017(08):23-26.
  [4]安子建.基于Scrapy框架的网络爬虫实现与数据抓取分析[D].吉林大学,2017.
  [5]刘志明,刘鲁.微博网络舆情中的意见领袖识别及分析[J].系统工程,2011,29(06):8-16.
  (辽宁大连东软信息学院 辽宁 大连 116000)
其他文献
摘要:为尔魂是混沦全息的【学术品牌】;学术品牌的【混沦全息】。它源于深厚积淀的临床实践,底色是哲学,升华为【双境醫学】,移植到【为尔魂中药系列】,渗透于【药食同源】的——【山药枸杞固体饮料】。哲学的产品;产品的哲学。德物一体;切换互证。德(哲学)是物(产品)的内修;物是德之外化。诗歌论文;反复写真。  关键词:为尔魂;药食同源;哲学产品;山药枸杞固体饮料;德物一体  回顾人生,终成正果。我已是中年
期刊
摘要:众所周知,气象服务为我国各个领域的发展提供更多的便利,也是发展社会主义市场经济体制下的需要,这一服务也是当代气象业务中的重要内容。在此背景下,作者结合相关的工作经验与新时代背景要求,就当今气象服务存在的各类问题提供相应的建议,对下一步气象服务的创新策略进行了系统的研究,希望对相关从业人员提供一定的帮助。  关键词:气象服务;创新策略;研究  传统气象服务内容往往是通过电视台、广播等媒介,不以
期刊
摘要:音乐是情感传达的主要艺术形式,乡村音乐以其简单、易懂、活泼的音乐风格成为西方音乐中的流行音乐,音乐当中大多数都是叙述人们的日常生活和劳动的状态以及恋人们的爱情故事等,这些都是乡村音乐的魅力所在。本文通过对乡村音乐的特点与形式的探究,探讨了乡村音乐传达基本价值观、传达思乡情怀和传达普通人的生活情感,通过一系列的分析感受到乡村音乐的灵魂艺术表现,从乡村音乐中寻找到精神寄托。  关键词:乡村音乐;
期刊
摘要:传统的公共图书馆采编工作已经无法适应社会的发展需求,在大环境改革的形势下,公共图书馆采编工作也应该进行创新,采编人员需要借助网络技术的便利和高效优势,提升采编工作的效率和质量。本文分析了目前公共图书馆采编工作的现状,探究了网络环境下公共图书馆采编工作的发展趋势。  关键词:公共图书馆;网络环境;采编工作  引言  随着人们学习意识的提升,公共图书馆逐渐成为人们获取信息资源的主要场所,这对图书
期刊
摘要:乡村景观是居民居住的空间环境,是集体记忆点的地方,在生产生活过程中形成独有的景观环境。在伴随着城镇化进展的过程中,土地拓展的规模持续增加,村庄外围的区域相对优良的农业用地逐渐被蚕食,村庄原有的自然景观不断发生着变化。随着机器作业的发展,生产方式在不断发生转变,村庄农业景观也在不断的发生着变化。通过对记忆里景观环境的再现,对村庄景观建设提供灵感和来源。  关键词:乡村记忆;自然景观  1.前言
期刊
摘要:近年来随着我国社会经济不断增长以及现代技术水平的提高,居民的生活水平也得到很大程度提升,人们对于建筑设计的要求逐渐升高,为满足人们对现代建筑设计的生活需求,相关领域加大了对现代建筑设计的重视程度,资金及技术的投入力度也在加大。这其中人们越来越对现代装饰元素产生视觉疲劳,融入传统建筑设计元素成为现代建筑设计的重要发展方向,传统元素也在推进建筑设计发展方面发挥重要作用。  关键词:中国传统建筑元
期刊
摘要:随着经济的发展,人们对室内居住的环境要求越来越高,不仅要满足基本的居住生活功能,而且还要求室内环境具有创意和艺术气息,再加上建筑市场发展越来越完善,人们的审美能力越来越高。这些因素都为发展室内设计创造了有利的条件,当前越来越多的新技术新工艺被运用到室内装修中,使得我们可以看到更好的室内创意设计作品,也能给广大用户提供更好的生活创意空间,为满足个性化的居家生活需求提供了基础和支撑。本文通过对室
期刊
摘要:民国时期“西学东渐”的风潮为中国的传统服饰色彩文化注入了一股新鲜的血液,潜移默化的影响了该时期服饰色彩语汇的发展。文章以民国时期报刊中的服饰色彩语汇为研究对象,分析该时期流行的服饰色彩语汇的命名规律,探讨中国传统色名在传承与发展中的流变轨迹,为民国时期色彩的觉醒、觉察、觉知、觉悟用到当代时代设计中作铺垫。  关键字:民国;报刊;服饰;色彩;语汇  1.民国时期服饰流行色彩词概述  在民国报刊
期刊
教材分析:《月光曲》是部编版六年级上册第七单元的课文。这是一篇记叙文,课文讲述了德国著名音乐家贝多芬因同情穷兄妹而为他们弹琴,盲姑娘对音乐的痴迷激发了贝多芬即兴创作《月光曲》的传奇故事,表现了贝多芬善良的品质——对穷苦人的同情、热爱。同时告诉人们美好乐曲的产生不仅仅依靠丰富的想象力,更源于高尚而真挚的情感。教学目标:1、我能学会本课8个生字,理解由生字组成的词语。2、我能正确、流利、有感情地朗读课
期刊
摘要:本文基于德国哲学家海德格尔的“世界性命运”观点,阐释农民与艺术的关系、中国民间艺术的基本特征,针对现代化进程下农民画在構型、内容与形式、作品风格上产生的变化进行具体分析,并聚焦“复杂嵌合体”与“另类民俗志”两个维度探讨农民画未来的转型发展方向,以期为民间艺术研究工作提供参考。  关键词:领悟者;民间艺术;农民画;守护者  艺术理论研究学者郎绍君针对农民画的定义作出阐释,他认为农民画“是在官方
期刊