论文部分内容阅读
随着计算机和通讯技术的发展,Internet(互联网)逐渐渗透到人们生产、生活的各个领域,成为人们重要的知识来源,人们不断的从网上获取信息用来指导自己的工作和生活,现代社会已经每时每刻都离不开互联网。Web,指的是Internet上与HTML相关的部分,即基于HTML协议的信息资源页面。Web上的中医药信息资源每天都在不断的增长,已经存在的资源也在不断的发生着变化和更新,信息技术的快速发展使得Web上的中医药信息资源相关数据呈爆炸式增长,但这些不断增长的中医药信息质量良莠不齐,并且在现有的情况下很难有一套相对完善的方法对中医药信息资源的质量进行客观的评价,并指导人们从大量的中医药信息资源中找到正确的、对自己有用的信息。因此,我们需要一种方法,能够对目前Web上存在的中医药信息资源进行客观的评价。论文从Web中医药信息资源特点出发,使用Hadoop分布式计算技术,提出基于数据辅助的德尔菲法与AHP(Analytic Hierarchy Process,即层次分析法)建立中医药Web信息资源评价指标体系,并针对中医药健康服务类网站进行了实证研究。主要研究成果包括以下几个方面:(1)中医药主题爬虫的设计。(第3章)讨论了Web中医药信息资源具有增速快、分布广、易变化的特点,如果要对Web上存在的中医药信息资源进行分析和评价,前提是能够以廉价、快速、高质量的方法获取信息,因此应使用自动化的Web信息获取方式,即使用网络爬虫对中医药Web信息进行自动爬取。同时,该爬虫与通用搜索引擎的爬虫有所区别,只针对以中医药为主题的网站进行爬取,避免浪费爬虫时间,从而提高爬取目标的准确率。因此针对上述要求,确定了中医药主题爬虫分布式、可伸缩、高性能、高质量的爬取目标,制定相应的爬取策略,并对爬虫进行开发。(2)中医药信息资源的Hadoop平台搭建。(第3章、第6章)爬取到的中医药Web相关主题页面内容,由于范围广泛、需要定期不断的进行数据更新,同时在进行页面分析和数据挖掘时,使用单机的分析策略,对单机的性能带来很高的要求,因此使用单机关系数据库的存储方式,不能满足高性能的计算要求,因此,在爬虫爬取到页面后,使用Hadoop的HDFS进行存储,在后期对现有网页内容的文本挖掘、统计分析上,都能够保证高性能和低系统开销。(3)中医药Web信息资源评价指标体系的构建。(第4章、第5章)从中医药Web信息资源特点入手,探讨了针对Web中医药信息资源评价的原则,对评价指标体系进行了构建。整个评价指标体系共分为四个大的部分,即信息内容评价、网站设计评价、易用性评价和其他评价。每个部分又细分了具体的二级指标,总共24项,并详细说明了这24项评价指标的意义和作用。进而对基于AHP层次分析法的中医药信息资源评价进行了分析,建立判断矩阵,确定指标体系具体指标的权重,并进行一致性检验。根据权重的比较,确定中医药Web信息资源评价中各个指标的重要性程度。(4)基于数据分析的中医药Web信息资源评价实施(第6章)以具体的中医药网站评价实务为例,从搭建分析环境开始,包括对于软硬件的配置要求、系统架构、Hadoop集群搭建等都进行了详细的说明。并解释了相关Map Reduce算法设计与实现,阐述了对网站进行分类、打分评价的具体实施过程。并指出了基于该评价,网站应做的改进。