【摘 要】
:
目前网页数据获取技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了避免此类情况的发生,文章设计了一套基于Selenium的多线程网页数据采集与分析
【机 构】
:
贺州学院数学与计算机学院,广西贺州542899;广西师范大学数学与统计学院,广西桂林541004
论文部分内容阅读
目前网页数据获取技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了避免此类情况的发生,文章设计了一套基于Selenium的多线程网页数据采集与分析算法.该算法的数据采集部分主要应用了python中用于自动运行和操作浏览器的Selenium库,完美地解决了动态和静态页面数据信息的获取问题,无界面版本浏览器、多线程网络爬虫技术以及关键词判别程序的使用,在很大程度上提高了网络爬虫速度和抓取内容准确度.并将该算法应用到在精准扶贫形式下的住户工资性收入调查数据的准确性判别中.最后以某地区人才市场网为例,抓取各行业工资水平的实时数据,通过对调查数据与抓取数据的比较分析判别住户调查中工资数据的准确性.
其他文献
对我国官方GDP统计数据质量的质疑,一直是理解中国经济动态的一个长期问题.文章基于我国省域经济指标和卫星记录的夜间灯光指标,运用Pinkovskiy等模型测算了我国省域真实收入
分析了当前新亚欧大陆桥经济发展四大新特点,即在国家对外开放格局中的战略地位日趋重要、沿桥经济区规划纷纷上升为国家战略、城市经济发展迅速、区域合作明显加强等,指出其
为厘清减税政策在经济高质量发展阶段调控宏观经济的机理,文章构建包含异质性家庭和“不平等指数”的TANK-DSGE模型,研究了减税政策对消费、收入分配格局、就业状况与经济增
焊管学术委员会各成员单位、国内焊管界专家、学者:“十二五”期间,我国焊管行业将面临全新的形势,科技创新、优质高效、节能降耗将是企业发展的根本方向。为适应我国焊管工
文章利用探索性空间统计分析方法考察了我国31个省份物流业与制造业协同集聚的空间分布及空间关联特征,并运用空间面板模型研究了马歇尔三要素对于物流业与制造业协同集聚的
文章利用2016年CFPS微观调查数据,运用VEP测量法测算我国农村家庭的贫困脆弱程度,并实证检验了社会资本对农村家庭贫困脆弱性的影响.结果显示,以常用脆弱线(50%)为标准,2016年
在进一步扩大对外开放的背景下,国际专利申请(PCT)对中国的经济发展显得尤为重要.文章利用贝叶斯结构方程模型(BSEM)从经济开放度与政策不确定性方面刻画中国PCT各影响因素的
文章构建了农村人力资本投资对农村劳动力转移影响的向量误差修正模型(VEC)模型,并通过协整检验、误差修正模型和格兰杰因果检验考察了农村人力资本投资与农村劳动力转移的长
为解决面板数据分析中的异质效应和门限效应,文章提出了一个新的经济计量模型:面板数据门限分位数回归模型(PTQR).PTQR模型不仅能够测度不同分位点处的门限效应,而且能够揭示
文章选取2006-2019年我国31个省份医疗服务业的投入产出数据,以人均GDP、人口城镇化率作为环境变量,利用三阶段DEA模型对我国医疗服务业的全要素生产率进行了优化与评价.研究