论文部分内容阅读
随着云计算技术和移动互联网的迅猛发展及智能终端的普及,服务的开发、部署、访问及维护成本大幅度降低,海量服务应运而生。同时,用户与服务之间,服务与服务之间,用户与用户之间的交互数据也在井喷式增长,仅以Twitter API服务为例,每天的用户调用纪录达60亿条以上。可以预见的是,服务计算的大数据时代正在到来。 在服务大数据的新形势下,如何有效地利用与服务相关的多源数据,实现面向海量服务的高效、准确的服务发现,正在成为学术界和产业界共同关注的研究热点。传统的服务计算研究具有规模较小、数据单一、环境静态等局限性,无法应对新形势下“海量服务”、“多元数据”、“复杂网络”等特性对服务发现提出的挑战。本文围绕服务发现中的三大关键问题,包括服务聚类,服务质量预测和服务选择,在大数据环境下展开研究,主要工作与贡献包括如下: 首先,针对由于数据单一造成的服务聚类准确性不足等问题,分析并引入服务标签数据,提出融合标签数据的服务聚类方法,并发布了业内首个服务标签数据集。针对服务聚类方法,提出基于相似度计算和LDA模型的两种服务聚类算法。针对服务标签数据分布不均、模糊性、宽泛性、甚至恶意性等特点,提出标签推荐和标签排序方法来提高标签数据质量。相关实验证明了标签数据的引入对服务聚类效果的提升,以及本文所提出的服务标签数据处理方法的有效性。 其次,针对复杂网络环境下的服务质量数据缺失问题,提出一种基于协同过滤的混合服务质量预测方法。通过分析QoS数据集,针对QoS数据标准差过大的特点,提出使用A-Cosine方法来计算服务之间的相似度,从而消除其对服务质量预测的影响;提出QoS数据平滑化处理机制,使用基于聚类的null值初始化方法来提高服务质量预测准确性;提出混合服务质量预测以降低数据稀疏性对预测准确性的影响。同时,提出二阶段近邻选择优化策略来提升预测方法的可扩展性。最后,通过一系列基于真实数据的实验,证明了本文提出的预测方法的准确性。 最后,针对面向海量服务的基于QoS的服务选择问题,提出了基于Map-Reduce框架的并行Skyline服务选择算法。在并行Skyline服务选择算法的Map过程中,提出基于角度的数据空间分割方法来优化Map过程中的任务分配,并通过理论证明了基于角度的数据空间分割方法的有效性。在并行Skyline服务选择算法的Reduce过程中,提出DoPoLo优化策略及两种算法来提升Reduce阶段的效率。最后基于真实数据和仿真数据,对本文提出的并行skyline服务选择方法及相应的多种优化算法进行了验证。