基于Boosting算法优化BP神经网络量化选股研究

来源 :成都理工大学 | 被引量 : 0次 | 上传用户:luodf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,我国量化投资业正在迅速发展,越来越多投资者将目光锁定在量化投资领域,如量化择时与量化选股、高频套利交易等。量化投资本质上认为投资组合收益可以被分解到各类因子,通过量化、系统且精细地控制投资组合配置达到获取超额收益的目的。在面对高维度且复杂的金融数据时,神经网络因自身强大非线性映射能力、自学习能力被广泛应用在量化投资领域。但是随着神经网络算法在量化投资领域研究地深入,越来越多问题也在研究与建模中被暴露出来,如模型优化方式趋于单一化,神经网络算法对数据噪音敏感且易过拟合等问题,若是未针对神经网络选股模型的缺陷进行优化,则会造成投资者失利、决策失误等严重后果。因此,如何改善现有神经网络模型不足并进行模型优化,构建科学有效的量化选股模型,对投资者而言具有深远意义。基于以上分析,本文研究对象选为主板通用制造业145家相关上市公司,数据集样本总数共计181432条,样本区间为2014年1月至2019年12月,共选取38个相关财务指标和技术指标,按照相关性分析法剔除了10个与股票收益率呈弱相关的特征指标,并对样本数据集进行训练集、测试集的划分。在构建模型时,将量化选股问题转化成机器学习中模型分类问题,选取神经网络中应用最广泛的逆向神经网络模型(简称BP模型)为研究主体,构建BP模型后针对自身局限性,如收敛速度慢、对数据噪音敏感、易陷入局部最优解等,结合集成学习Boosting算法迭代训练错判样本的特点进行模型优化,构建出Boosting-BP模型后进行实证分析,得出以下结论:(1)BP模型存在着收敛慢、容易陷入局部最优解和对噪音敏感等局限性,但金融数据必然会夹杂着许多噪音,这会影响模型分类效果,考虑到Boosting算法通过构建多个基分类器将数据噪音进行分解,引入集成学习算法后Boosting-BP模型分类准确度得到了大幅度提升,可见Boosting算法对BP模型缺陷起到了一定程度优化作用。比较总收益和超额收益后发现,Boosting-BP模型的表现均优于BP模型,除此之外,在模型稳定性和风险控制方面,Boosting-BP模型也取得了不错的成绩,经过优化后的Boosting-BP模型选股表现优于BP模型。(2)本论文提供一套行之有效的模型构造方法并详细介绍了选股模型构建过程,包括样本选择和因子筛选、数据处理、模型搭建、参数优化、构建选股策略等步骤,为投资者提供了有效决策参考。(3)Boosting算法作为集成学习代表算法之一,与BP神经网络结合丰富了现有模型组合方式,为机器学习算法优化方式提供了新的研究思路。基于以上结论,本文认为Boosting-BP模型的相关研究具有如下重要意义,首先,集成学习算法在量化研究中应用较少,本文实证结果可以验证集成学习算法在量化选股中的有效性,为机器学习、集成学习、神经网络等技术应用于量化选股研究提供实践意义。其次,本论文提出了行之有效的模型构建方法,并详细介绍了模型构建过程,这为投资者提供了有效的决策参考。最终,本论文拓宽了现有模型组合与算法优化方式,为量化投资领域中模型优化方式提供创新思路。
其他文献
前言2013年11月,十八届三中全会审议通过的《中共中央关于全面深化改革若干重大问题的决定》中明确提出,推进股票发行注册制改革。经过五年的筹备,2018年11月5日,习近平总书
会议
我国中风患者众多,其中70%-85%的患者伴有偏瘫。偏瘫患者上肢丧失活动能力后,如果不及时进行康复治疗,容易造成肌肉萎缩、关节僵化等问题。所以,患者需要借助康复治疗器材进行康复训练。脑机接口(BCI)指在人脑和计算机或其他电子设备之间建立一种不需要依赖外周神经系统和肌肉组织进行信息传输的人机交互系统。该系统可以直接将人体脑电信号(EEG)翻译成外部设备控制命令并支配外部设备进行运动。基于神经生理学
在烟气污染物排放标准不断加严下,以钢铁烧结和垃圾焚烧为代表的固定源烟气排放受到关注,其烟气排放呈现出两个共性特征:一是烟气温度低于300?C;二是烟气中含有二噁英类(PCDD/
黄土高原是我国四大高原之一,在东亚季风、黄土下伏地形等因素共同作用下,黄土高原成为世界上最为典型的沟壑侵蚀区之一,其中沟壑分布范围广,沟壑形态多样,是沟壑相关研究的重要研究区之一。沟壑是黄土高原最有活力、最具变化的地貌单元,沟壑在传递物质能量的同时,不同沟壑之间通过径流节点相互连接,在流域内部形成沟壑网络,控制着流域的地表形态。围绕黄土沟壑,前人已经做了大量的研究,近年来,随着遥感和地理信息科学等
股市指数的波动是证券投资者所关注的焦点内容,其影响因素涵盖诸多方面,有直接相关的影响因素和一些难以被察觉到的潜在因素。近年来,随着计算机运算能力的加强和众多人工智
近年来,中国陕北黄土高原因其较高的研究价值而受到学术界的广泛关注,已出现了数种黄土高原区域地貌分类方法。有些研究应用分形维数(FD)来描述该地区地貌特征,但是,并未见基
股票市场是一个很庞大的复杂系统,国内股票市场是比较复杂的,交易量和价格不稳定。近些年,股票市场交叉持股、相互投资合作的现象越来越多,这也加大了分析股票的难度。将股票进行聚类,从中发现股票之间的关系,有利于投资者们制定更加科学可靠的投资决策。谱聚类算法是建立在复杂网络理论之上的,其核心是将聚类问题转化为图的最优化问题。与传统的聚类方法相比,谱聚类能用于任意形状的数据且收敛于全局最优点。但该算法的一个
数字高程模型(Digital Elevation Model,DEM)作为现代数字地图4D产品的一部分,在地貌学、水文学及土壤学等领域具有广泛的应用。在黄土地貌区,地表形态易在短时间内受暴雨侵蚀和人类活动等外力作用影响,使得区域内高精度DEM数据的快速与准确获取是黄土高原数字地形分析与应用研究的重要基础。无人机(Unmanned Aerial Vehicle,UAV)摄影测量在短时间内可获取海量点
雷锋精神是新中国建设时期的主要精神支柱,承载着中国共产党人的初心和使命,也是新时代激励全国人民永远奋斗的红色精神。雷锋精神的丰富发展历程自1963年毛泽东同志为雷锋题
推荐技术能够在用户缺乏确切的需求时,通过对用户以往的选购行为进行分析,创建用户喜好模型,挖掘物品的长尾,更好地给用户选出那些他们有兴趣但很难发现的物品,提高选购效率