论文部分内容阅读
季节性流感在全球范围内每年会导致300万到500万的感染病例和25万到50万的死亡人数,改进和完善流感疫情的实时预警和监测方法十分必要。当前,互联网已经成为知识经济社会的基础载体和支撑环境,能够记录网民在网络上面的所有行为,积累了海量的网民行为数据。这些海量数据(“大数据”)构成一个庞大的网民意图数据库,蕴含着网民的消费习惯,兴趣爱好,关系网络等等,通过对这类“大数据”进行科学合理地分析处理,或许能够形成实时监测流感疫情的新方法。 研究者们在这个领域已经做过一些尝试,如在使用流感官方数据(包括流感发病数,流感样病例数等)之外,结合网络搜索数据、微博数据等进行了初步的流感监测模型探索,但由于研究时间尚短等原因,在一些关键点,如网络数据的获取和处理方面、搜索和微博数据在流感疫情监测能力的对比研究方面等等,尚未形成系统的分析,基于此,本文主要做了以下几方面的研究工作: (1)综述了以往关于网络搜索和微博数据的应用研究,尤其是在流感监测领域里的研究,发现虽然国外基于网络搜索数据(主要是谷歌搜索数据)对流感监测方法进行了诸多验证,但国内使用搜索数据对中国流感疫情进行监测研究的文献还十分少见,在此情况下,本文使用百度搜索数据对中国流感疫情的监测做出研究,取得了良好的监测效果。 (2)分析了网络搜索数据和微博数据的特点,探索了搜索数据和微博数据的获取方法,分别构建了中国流感疫情监测指数和美国纽约市流感疫情监测指数。在构建搜索监测指数的过程中,比较了简单合成法,加权合成法,时差合成法,聚类合成法,逐步合成法等一些常用的指数合成方法,证实了与其他方法相比,逐步合成法合成的指数与流感疫情的相关性最高;在构建微博监测指数的过程中,对微博数据进行详细编码,比较了通过编码生成的各类微博数据与纽约市流感样病例数之间的相关关系,发现通过编码可以去除原始微博数据中含有的各类噪音信息,得到与纽约市流感疫情最相关的微博数据,进而得到纽约市流感监测指数。 (3)把基于百度搜索数据的搜索指数应用于中国流感疫情监测,应用AR模型进行预测,取得了良好的实证效果。随之,列举我们在搜索指数的应用方面做过的其他研究,指出其较为广阔的应用范围。将Twitter数据和Google insights数据应用于美国纽约市的流感疫情监测当中,并比较其监测效果,得出Twitter数据在流感爆发季对流感疫情的监测效果要好于Google insights数据的结论,开发了基于Twitter数据的流感监测研究工具——Healthtweet,将流感监测范围从全球,国家等细化到了市级,甚至区县级,取得了较好的精度。 结论显示,尽管本研究的理论方法仍然有局限性,如某些区域网络可接入性差或者网络上不相关的噪声信息多等,利用网络数据进行实时流感监测确实是一种低成本的方法,可用价值较大,应用前景广阔。