论文部分内容阅读
近年来,机器学习方法在量化投资的应用研究逐渐兴起,但关于新兴的机器学习模型 (XGBoost模型) 在量化选股方面的研究并不算多,本论文以沪深300成分股作为样本对XGBoost模型进行多因子选股研究,并结合支持向量机模型、随机森林模型、线性回归模型比较分析各模型在选股性能上的优劣。
首先,在第一章中指出传统多因子模型的有效性随着因子池的扩大而不断降低,而各种机器学习模型都是一种有效的解决方案,其中在理论上具有优越性的XGBoost模型也有待实证进一步检验,为全论文奠定了理论基础,具有研究意义。
其次,在因子选择方面,本论文从价值投资理念出发并结合行为金融学的思想,选择了估值类、财务类、成长类、动量类及情绪类共5大类20个因子,较为全面的反映了影响股票收益率的因素。为进一步优化因子池进而为模型实证创造最佳样本数据,本论文还对选取的初始数据进行数据预处理及单因子有效性检验。本论文还综合了中位数去极值法、均值填充法、行业市值中性化处理及数据标准化等方法对原始数据进行预处理进而得到了标准数据格式;在单因子有效性检验中,本论文综合运用了IC值法及分组收益法对单个因子的有效性进行综合评价,得到了11个有效因子,然后再根据相关系数法对这11个因子进行冗余因子剔除并最终得到了9个有效因子。
然后,本论文采用网格寻优法及交叉验证法对XGBoost模型进行参数寻优并得出最优参数。并且,根据各因子得分权重值可以看出其中momenturn_1m (个股最近1 个月收益率) 与Attention_rate (1月关注增长率) 等反映市场情绪的短期因子重要性排名靠前,而诸如Sales_G (营业收入同比增长率) 等反映基本面的长期因子重要性排名靠后,在一定程度上也反映了我国股市短期因素主导较强、投机较为严重,中长线价值投资理念还没有很好被普及和贯彻执行。
最后,本论文对XGBoost模型及各模型进行了回测检验,并对模型损失函数进行了改进,同时运用收益-风险评价体系比较各模型选股性能的优劣;此外本论文进行了三次回测以纵向观测时间维度对模型有效性的影响。回测结果表明:各模型在多因子选股上均能产生超额收益,这在一定程度上肯定了本文因子选取的有效性;从各模型的横向比较来看,XGBoost模型整体表现优于其他模型,这从实证上验证了XGBoost模型强大的集成学习能力,同时结果表明改进损失函数有效的提升了模型的预测能力;从三次回测结果的纵向比较来看,随着回测区间的增长,各模型的Alpha收益显著降低,并且风险指标也在不断增大,表明模型预测的稳定性会随着时间的延长而减弱。
首先,在第一章中指出传统多因子模型的有效性随着因子池的扩大而不断降低,而各种机器学习模型都是一种有效的解决方案,其中在理论上具有优越性的XGBoost模型也有待实证进一步检验,为全论文奠定了理论基础,具有研究意义。
其次,在因子选择方面,本论文从价值投资理念出发并结合行为金融学的思想,选择了估值类、财务类、成长类、动量类及情绪类共5大类20个因子,较为全面的反映了影响股票收益率的因素。为进一步优化因子池进而为模型实证创造最佳样本数据,本论文还对选取的初始数据进行数据预处理及单因子有效性检验。本论文还综合了中位数去极值法、均值填充法、行业市值中性化处理及数据标准化等方法对原始数据进行预处理进而得到了标准数据格式;在单因子有效性检验中,本论文综合运用了IC值法及分组收益法对单个因子的有效性进行综合评价,得到了11个有效因子,然后再根据相关系数法对这11个因子进行冗余因子剔除并最终得到了9个有效因子。
然后,本论文采用网格寻优法及交叉验证法对XGBoost模型进行参数寻优并得出最优参数。并且,根据各因子得分权重值可以看出其中momenturn_1m (个股最近1 个月收益率) 与Attention_rate (1月关注增长率) 等反映市场情绪的短期因子重要性排名靠前,而诸如Sales_G (营业收入同比增长率) 等反映基本面的长期因子重要性排名靠后,在一定程度上也反映了我国股市短期因素主导较强、投机较为严重,中长线价值投资理念还没有很好被普及和贯彻执行。
最后,本论文对XGBoost模型及各模型进行了回测检验,并对模型损失函数进行了改进,同时运用收益-风险评价体系比较各模型选股性能的优劣;此外本论文进行了三次回测以纵向观测时间维度对模型有效性的影响。回测结果表明:各模型在多因子选股上均能产生超额收益,这在一定程度上肯定了本文因子选取的有效性;从各模型的横向比较来看,XGBoost模型整体表现优于其他模型,这从实证上验证了XGBoost模型强大的集成学习能力,同时结果表明改进损失函数有效的提升了模型的预测能力;从三次回测结果的纵向比较来看,随着回测区间的增长,各模型的Alpha收益显著降低,并且风险指标也在不断增大,表明模型预测的稳定性会随着时间的延长而减弱。