社会化网络数据获取技术研究与实现

来源 :吉林大学 | 被引量 : 0次 | 上传用户：zhangyongqihx

【摘要】

：

我们生活在大数据时代,数亿人花费大量的时间在社会化网络上以史无前例的速度分享、交流、联系、互动,并且产生了海量的用户数据,这些丰富的数据为学术研究和产品开发提供了

【作者】

：

徐恒

【出处】

：

吉林大学

【发表日期】

：

2016年期

【关键词】

：

社会化网络爬虫多线程

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

我们生活在大数据时代,数亿人花费大量的时间在社会化网络上以史无前例的速度分享、交流、联系、互动,并且产生了海量的用户数据,这些丰富的数据为学术研究和产品开发提供了巨大的机会和潜能。对于提供API社会化网络平台,我们可以方便地获取数据进行研究,对于不提供API的社会化网络平台,则需要编写爬虫程序来获取数据,这也是本文的研究内容。本文以国内最优秀的社会化问答社区知乎网为研究对象,研究知乎网爬虫的相关技术。本文主要的研究包括:对使用Ajax技术的网页的解析、爬虫爬取策略的研究、网站的模拟登录、多线程设计、URL去重设计等。本文工作如下:首先,分析知乎爬虫的主要问题并设计爬虫的主要模块。在这一部分本文介绍了爬虫设计相关的知识,如Ajax、URL去重、多线程、网页解析。也介绍了社会化网络的相关知识,如社会化网络的表示方式、中心性、派系等。在这一部分,设计并实现了知乎爬虫的的主要模块,如模拟登录模块、用户解析模块、问题解析模块、话题解析模块、数据存储模块、控制模块、用户网络邻接矩阵生成模块,并且实现了爬虫的基本功能。其次,设计了知乎全网用户爬虫和知乎全网问题爬虫。在这部分主要研究了爬虫的爬取策略。对于全网用户爬虫设计了深度优先爬取策略、广度优先爬取策略和基于知乎话题结构的用户爬取策略。对于全网问题爬虫,则是通过知乎全部问题页面获取。在爬取到部分数据后,对数据进行了简单的分析,如用户的构成,问题答案数量的分布。最后,设计了知乎主题爬虫。这部分主要研究了知乎主题爬虫的爬取策略,该策略是基于知乎网结构的广度优先爬虫。在选取一个主题进行爬取并得到数据后,对这部分用户进行了社会化网络分析,分析了其用户网络结构、中心性和派系,获知了知乎社区的结构特点。

其他文献

电视广告的社会文本解读

电视广告是当代最活跃的消费文本之一。电视广告的符号特征和意义 ,它对以往广告模式的突破和反叛 ,它在后现代主义艺术中的地位等 ,都显示出了重要的研究价值。本文对研究的

期刊

电视广告后现代主义意识形态

一体化IFAS工艺处理农村生活污水

采用一体化IFAS工艺对某城镇农村生活污水进行处理,考察其对污水中的有机物及含氮污染物的去除能力。结果表明,当进水COD、NH4+-N和TN质量浓度分别为160280 mg/L、2148 mg/L

期刊

一体化IFAS工艺有机物的去除脱氮

铝塑复合包装材料的开发应用

<正>铝箔不仅质地柔软,延展性好,便于加工,而且轻便美观,回收容易,有利环保,是现代包装中最常用的材料之一。但因铝箔容易在包装、使用过程中形成针孔而降低其阻隔性能,所以

期刊

包装材料阻隔性泡罩包装铝箔袋铝软管铝塑复合材料铝塑复合纸

“东方红”老产品变形受追捧

<正>近期,随着各地春耕生产的陆续结束,东方红ME系列卧式强压入土机型也给用户交出了一份满意的答卷。"东方红ME系列卧式强压入土机型今年刚进入市场销售,就深受用户喜爱。"

期刊

东方红中国一拖

社会生活·文化心理结构·文学艺术——关于文学本质问题的再思考

<正> 近几年来,由于思想解放的推进和世界科学技术革命浪潮的冲击,改革之风也吹进了文学研究的领域;系统论、控制论、信息论以及心理分析、结构分析等现代科学方法,被纷纷“

期刊

文化心理结构文学艺术再思考文学本质

基于价值流图技术的生产线优化与改善

以某集团床垫生产线为实际研究对象,对生产现场进行调研,绘出了现有生产线的价值流图,分析当前生产系统中非增值的部分。基于精益思想,通过减少或消除非增值环节,绘制出生产

期刊

价值流价值流图精益生产

聚力推动贺兰山东麓葡萄酒走向世界

经过多年的发展,贺兰山东麓酒庄数量、酒庄酒产能已进入国内前列。产区葡萄酒屡获国内大奖,贺兰山东麓葡萄酒已成为全国知名品牌。聚力推动贺兰山东麓葡萄酒走向世界,必须坚

期刊

贺兰山东麓葡萄酒经营体系

高职男护生专业思想现状调查及应对措施

调查男护生选择护理专业的思想动态,以便在高职护理教育中采取相应措施稳定其专业思想,使其顺利走向工作岗位.

期刊

男护生专业思想护理专业

北京市突发公共事件特征与发展趋势分析

基于北京市2011~2013年间发生的283起突发公共事件,利用统计学方法,从时间、空间和类别等角度对突发公共事件的特征和发展趋势进行了分析总结。结果发现:(1)北京市突发公共事

期刊

突发公共事件特征发展趋势

纤维加筋沥青混凝土抗裂性能研究

有机纤维是一种抗拉强度很高的弹性材料 ,它的掺入将使沥青混凝土的内部结构更加优化 ,从而使其抗拉、抗裂性能得到改善。该文通过劈裂试验和小梁弯曲试验对不同掺量和不同种

期刊

沥青混凝土纤维抗裂小梁弯曲试验

社会化网络数据获取技术研究与实现

其他学术论文