论文部分内容阅读
近年来,在网络经济学、环境科学、互联网技术等许多领域都产生了数据的大规模增长现象,社会正式进入大数据时代。大数据作为一种信息资本和数据资源将对国家治理、政府决策等方面产生巨大影响。这也使得许多传统的数据处理及分析算法不能满足数据急速增长的需求。文中主要对大数据背景下政府统计方法进行分析研究,具体工作安排如下。第一章论述了本文的研究背景、意义和国内外文献综述,提出了本文的研究问题。第二章介绍 Bootstrap算法与 Bootstrap 的改进算法 Bag of Little Bootstrap(简称BLB算法),给出算法的具体思想和计算过程,指出BLB算法在数据量庞大的情况下具有较高的可行性。第三章针对传统的核算方法在权数上更新速度较慢以及大数据背景下数据量庞大的问题,从核算流程及权数等方面对CPI核算方法进行了改进,提出了基于Bootstrap的抽样方法,从而扩大了数据的样本量,降低了价格采集点的采集频率,在节省数据采集成本的同时,也提高了预测精度;参考统计网络价格消费指数的方法,对CPI核算中的权数做了改进,提高了权数更新的频率。第四章构建了基于Bootstrap和BLB抽样方法的回归预测模型,并给出了相应算法。所给模型较好地体现了 Bootstrap和BLB抽样方法在统计数据处理和推断中的优点。特别是,基于BLB抽样方法的回归预测方法能够在数据量较大的情况下实现分块并行运算,从而使得该模型能够更好地适合大数据回归分析。第五章对第四章所提到的回归预测模型做了实证分析,通过实验验证了Bootstrap回归算法相对于传统的多元线性回归模型具有更高的预测精确度;将BLB回归模型应用到CPI的预测中,进一步验证了 BLB回归模型相较于Bootstrap回归模型具有更高的精确度。第六章对论文的主要内容做了总结,并就CPI核算和回归预测方面提出了进一步研究的问题。