论文部分内容阅读
量化投资在海外的发展已经有30多年的历史,中国目前虽然处于起步的阶段,发展前景仍然十分广阔。股票价格的涨跌一直是人们最关心的问题,对股票市场的分析以及未来行情的预测,更成为一个热门研究的课题。机器学习算法由于具备较高的预测准确率和较好的泛化能力,被广泛地应用到量化投资研究中。所以,本文基于机器学习方法构建量化投资策略,根据模型预测股票价格的涨跌方向,从而做出投资决策。
本文选择沪深300的所有成分股从2007年1月到2018年1月的月度数据作为研究对象,指标选取包括质量类、成长类、动量类、价值类、情绪类、基础科目与衍生类、收益和风险类、常用技术指标类、每股指标类和分析师类等十类因子。其中,提取股票每个月初的因子暴露作为训练输入特征,输出的是月末股票收盘价的涨跌。文章的第一部分是基于Lasso-logistic模型的量化投资策略。Lasso算法可以同时进行变量选择和参数估计,本文尝试将传统logistic模型与Lasso方法相结合,探索一种行之有效的量化投资策略。第二部分是基于支持向量机方法的量化投资策略。SVM是一种新的机器学习方法,又作为公认的强分类器,在股票预测方面取得了成功的应用,本文采用SVM的方法对股票价格的涨跌问题进行分析。此外,由于选取的因子指标之间相关性较高,可能导致样本信息过度重复的情况。本文考虑通过在Lasso-logistic模型和SVM方法中加入主成分分析,即建立PCA-Lasso-logistic和PCA-SVM模型,先对样本信息进行降维处理,解决因子指标解释冗余的问题。最后一部分是策略的回测检验和风险控制。希望在帮助投资者获得稳定超额收益的同时,能够更加有效地控制投资风险。
根据实证分析结果,虽然整个选股模型的预测准确率并不突出,但是策略回测依然取得了超越HS300指数的超额收益。机器学习中的Lasso-logistic模型和SVM方法相比较于传统分类模型logistic回归的效果更好,同时也证明了在大量因子指标的情况下,进行PCA降维处理是极其有必要的。最终的结果基本符合理论预期,在主成分分析之后的数据基础上的支持向量机即PCA-SVM的策略收益最好。但是从布林带通道的风险控制效果来看,PCA-SVM模型似乎没有PCA-Lasso-logistic模型的明显。
本文着重于合理地选取因子指标,再结合科学的机器学习方法,构建量化投资策略,使因主观偏差、操作失误等导致的风险大幅度降低,从而保证投资决策的客观性、科学性以及严谨性。因此,本文对股票价格涨跌的分析和预测有着重大的理论意义和可观的应用价值。
本文选择沪深300的所有成分股从2007年1月到2018年1月的月度数据作为研究对象,指标选取包括质量类、成长类、动量类、价值类、情绪类、基础科目与衍生类、收益和风险类、常用技术指标类、每股指标类和分析师类等十类因子。其中,提取股票每个月初的因子暴露作为训练输入特征,输出的是月末股票收盘价的涨跌。文章的第一部分是基于Lasso-logistic模型的量化投资策略。Lasso算法可以同时进行变量选择和参数估计,本文尝试将传统logistic模型与Lasso方法相结合,探索一种行之有效的量化投资策略。第二部分是基于支持向量机方法的量化投资策略。SVM是一种新的机器学习方法,又作为公认的强分类器,在股票预测方面取得了成功的应用,本文采用SVM的方法对股票价格的涨跌问题进行分析。此外,由于选取的因子指标之间相关性较高,可能导致样本信息过度重复的情况。本文考虑通过在Lasso-logistic模型和SVM方法中加入主成分分析,即建立PCA-Lasso-logistic和PCA-SVM模型,先对样本信息进行降维处理,解决因子指标解释冗余的问题。最后一部分是策略的回测检验和风险控制。希望在帮助投资者获得稳定超额收益的同时,能够更加有效地控制投资风险。
根据实证分析结果,虽然整个选股模型的预测准确率并不突出,但是策略回测依然取得了超越HS300指数的超额收益。机器学习中的Lasso-logistic模型和SVM方法相比较于传统分类模型logistic回归的效果更好,同时也证明了在大量因子指标的情况下,进行PCA降维处理是极其有必要的。最终的结果基本符合理论预期,在主成分分析之后的数据基础上的支持向量机即PCA-SVM的策略收益最好。但是从布林带通道的风险控制效果来看,PCA-SVM模型似乎没有PCA-Lasso-logistic模型的明显。
本文着重于合理地选取因子指标,再结合科学的机器学习方法,构建量化投资策略,使因主观偏差、操作失误等导致的风险大幅度降低,从而保证投资决策的客观性、科学性以及严谨性。因此,本文对股票价格涨跌的分析和预测有着重大的理论意义和可观的应用价值。