论文部分内容阅读
维数约简是机器学习领域中十分重要的研究课题之一。非线性嵌入方法,俗称流形学习,作为非监督、非线性维数约简方法,它能够发现高维数据中的内在低维结构,并把数据约减到一个非线性的流形空间上,帮助人们分析和挖掘数据的实质。自流形学习提出至今,已有十多年的发展,期间大量的非线性嵌入算法相继被提出,但是数据嵌入质量的评估,往往是通过算法得到的可视化结果的视觉感受来,主观定性的比较。尽管目前文献中有少量的评估方法,如最常见的领域保持率,但这一准则只关注领域保持程度并没有考虑流形的相关特性。文献中的其他准则,非常依赖人们对低维流形函数形式或者测地距离的先验知识,因此,更普适、更具体的非线性嵌入算法评估方法是一项非常有价值的研究课题。考虑到流形的特性,我们从全局平滑性和方向一致性上角度出发,提出了基于放大因子和主延展方向的一系列新的定量准则,用于分析流形学习算法更细致的特性。我们提出的准则既几何直观,又简单快速便于实现。大量的实验表明,我们的准则很好地反映出非线性嵌入算法的一些几何特性,并且对于out-of-sample问题(新样本数据点的嵌入问题)具有很好的指导意义。除了机器学习理论方面的研究,我们的工作还涉及了新能源产业的实际应用问题,将机器学习的相关理论方法应用到的风电转化环节中,借助预测模型将风能转化的电能更高效地接入电网中。近年来,随着节能减排的国际压力进一步增加,可再生清洁能源的应用受到了越来越多的重视。各国家和地区都加大了对以核能、风能、太阳能为主的可再生能源的研发力度,因为这些能源对环境既没有直接的污染,对生态带来的间接负面影响也是非常有限的。然而,受日本福岛核泄漏危机影响,公众对核电的信心和信任骤降,全球核电建设进程将放缓,人们开始将更多的目光投向更加安全、可靠的可再生能源。相较于其他可再生能源,风能的优势还是十分明显的,除了运行成本较低外,风力涡轮机的维护也更为便捷。但是,风力发电的间歇性,再加上目前大规模电力存储技术的不成熟,使得其可靠性有所降低。因此,风力的预测对于风能发电的意义尤为重大。我们对目前众多前沿的短期风力预测工作,进行了大量的调研。尽管这一领域目前已经有非常多的研究工作,但是可靠的预测模型往往十分依赖使用的预测方法和假设的数据结构。另外大多数的研究致力于风速预测,但是对风向预测的研究工作却非常少。为了解决这个问题,论文就2002年到2007年阿联酋阿布扎比地区的气象数据,对比了多种预测模型的建模方法和数据结构。分析数据表明随机森林技术在众多预测方法中是最优的。而后,论文中提到基于气象数据的非线性动态因果模型,在预测准确率上显著优于基于非因果结构的预测模型。另外,通过对比风向预测的两种不同策略,我们发现基于回归方法的风向预测在准确率上要优于基于分类的预测方法。