ESG40股指及其成份股之间关系的统计分析

来源 :经营管理者·中旬刊 | 被引量 : 0次 | 上传用户:lnfssg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:在本文选取2014.8.25—2014.11.18的60分钟线ESG40的指数走势与其40支成分股的数据并以“收盘价”作为主要关系指标。本文主要考虑两部分内容:第一,使用不同的估计方法来获得ESG40股指与其成份股之间的模型关系。主要考虑了两类有偏估计。同时,对所建立的模型进行了显著性检验,误差分析及其预测能力的考察。第二,考虑到各成分股之间可能存在较强的相关性,我们首先对数据做了聚类分析,又因为不同变量之间可能存在有依赖关系,所以利用LASSO估计和弹性网估计做了变量选择,以期望能利用较少的变量,进行低复杂度的运算,获得一个具有良好预测能力的模型。
  关键词:主成分估计 岭估计 变量选择
  本文以ESG40股指以及其成分股作为为研究对象,一方面研究该股指与其成分股之间的关系,另一方面以较少的成分股的组合,来跟踪指数,为基金管理者这类投资者提供以风险对冲为目的的投资选择。选取2014.8.25—2014.11.18的60分钟线ESG40的指数走势与其40支成分股的数据,并以“收盘价”作为主要关系指标。从成份股的变更时间来看,在我们选取的时间段内并没有成份股的变更。因此不需要对选取的数据进行处理。
  一、模型估计
  笔者首先利用正回归模型来估计参数,但相关系数矩阵的条件数为16506.84,即存在严重的共线性,且最大以及最小的特征值间差异巨大,这会使得正回归得到的模型具有很大的均方误差,因此考虑有偏估计进行统计分析。
  1.主成分估计。由于变量间的相关性较高,主成分法就是通过降为将变量转化为能解释大多数变量的不相关的新变量,该方法由Pearson,K. 以及Hotelling, H. 分别在非随机变量以及随机向量情况下进行的讨论。在实际使用中,注意首先要利用scale函数对数据进行标准化处理,然后利用R软件中的pr=princomp()命令即可得到主成分分析结果。首先选取四个主成分做最小二乘估计,发现:模型与每一个主成分的系数都是显著的。于是,我们利用坐标变换之后,我们得到每个成分股所对应的参数。此时我们得到主成分估计的残差为2603.218,在我们选取的4个主成分时,虽然在指数的走势上主成分估计和真实值是一样的,但是预测值在估计的精度上还是比较差的。为了减小估计的残差,我们采取增加主成分的方法,通过对协方差矩阵特征值的计算,我们设定阀值为0.1,发现前14个主成分满足要求。重复上面的步骤,可以得到得到估计残差平方和為360.7032,出现了不显著的主成份的系数,但是模型依旧通过了显著性检验。同时我们还利用R软件画出了残差图及预测图是的我们的结果更为直观的展示出来。 下图为4个主成分与14个主成分拟合的对比图。
  2.岭估计。另一种有偏估计就是岭估计。因为这里我们要使用岭估计(使用MASS程序包)。通过lm.ridge建立岭估计,涉及到岭参数lambda的选择,首先我们利用R软件画出数据的岭迹图。
  岭迹图中我们可以发现虽然调节参数lambda的值在5之后有了趋于稳定的趋势,但是我们看到在10的时候还是出现了交叉的现象。因此,我们使用R软件中的select()函数选取岭参数而不是从岭迹图中选取,利用select函数选取岭参数,选取在命令中自带的几个统计量(modified HKB estimator, Lawless-Wang, Generalized Cross Validation)中较小的modified HKB estimator 结果,为:0.1698289,选取该参数,得到的岭估计的残差平方和为88.42984,而对应的拟合图(图2)如上。从该拟合图看来预测值与实际值之间差异已经很小了。
  二、变量选择
  在利用最小二乘估计对模型的参数进行估计时我们发现,虽然拟合效果很好,模型也通过了显著性检验,但是,较多的系数是没有通过显著性检验的。而且,利用主成分估计来计算模型参数的时候,我们可以发现当我们选取四个主成分的时候得到每个主成分的参数是显著的,随着主成分的增加模型的预测值与真是值之间的差距越来越小,但是主成分的系数也就变得不再都是显著的。另外,从相关系数矩阵我们也可以发现数据是存在严重的共线性的,这说明变量之间存在这较为严重的相互性、关联性。因此,这里我们考虑变量选择问题,利用较少的变量来来做预测。这样就在保证模型较好的预测能力的前提下,大大的降低计算量。由于变量选择是为了选取几个相关性较强的变量中的具有代表性的变量,而相关性强的变量是可以被看作是属于一类的。于是,在做变量选择之前,我们先对数据做一个简单的聚类分析。通过聚类来观察各个变量之间在某个准则下的相关性关系。我们按照离差平方和的标准,分成两类,这里为了分析表述的方便,我们称最底层的括号为一级分类,第二次的括号为二级分类,依次我们可以得到七级分类。事实上我们在进行变量选择时主要观察哪一些变量被分离出来,而这些变量又是分属于不同的级类的。一级分类如下:
  1:广汇能源。2:北京银行,长江电力,大庆铁路。3:招商银行,兴业银行。4:驰宏锌锗。5:浦发银行,特变电工。6:华能国际,民生银行。7:保利地产,中国重工。8:中国交建。9:中国铁建。10中国北车,中国南车。11:宝钢股份,交通银行。12:上港集团,中信银行。13:光大银行,中国银行。14:中国中铁。15:中国铝业。16:中国建筑,中国联通,工商银行。17:天士力,青岛啤酒。18:中国神华。19:青岛海尔。20:海正药业,国电南瑞。21:包钢稀土。22:上汽集团,万花药业。23:中国太保。24:宇通客车,复星医药。
  但是按照不同的准则是有很多的变量选择标准的,我们这里主要考虑以下两类基于最小二乘估计带有不同惩罚项的变量选择方法:1. 绝对约束估计(LASSO); 2. 弹性网约束估计。
  1.绝对约束估计(LASSO)。LASSO(the least absolute shrinkage and selection operator)方法是由Tibshirani在1996年提出来的,近几年在大批优秀统计学家的努力下有了长足的发展。这也使得LASSO方法日益成熟,在R软件中也逐渐形成了专门的软件包来做实现变量选择,其中比较优秀的算法应该是有Efron等人提出的最小角回归方法(LARS), 我们这里也直接采用LARS算法来求解LASSO估计。在LARS软件包中可以通过Cp准则和BIC准则等来实现变量选择,在我们的实际数值实验中,我们发现如果采用Cp准侧,我们只是从40个变量中选取39个变量,并没有很好的实现变量选择。因此,我们这里只列出采用BIC准则做变量选择的结果,并对结果进行分析。首先,我们使用LARS中的predict函数给出参数s与BIC值之间的关系,并给出合适的s使得BIC达到最小。直接利用程序我们可以得到s=1.73时,我们得到最小的BIC值为7.518394。当BIC的值为7.518394是我们利用LASSO估计选取了26个变量,且得到线性模型结果如下:   Y=6.888*浦發银行+7.093*华能国际+0.7099*上港集团+7.128*中国联通+2.308*宇通客车+5.146*特变电工+1.483*上汽集团+2.418*复新医药+2.252*万华化学+0.858*国电南端+0.726*驰宏锌锗+0.205*青岛海尔+2.192*长江电力+2.714*大秦铁路+5.384*北京银行+1.783*中国铁建+0.559*中国北车+11.787*中国中铁+12.538*工商银行+5.78*中国铝也+3.024*中国太保+10.362*中国建筑+2.659*中国交建+4.79*中国重工+10.152*中信银行。然后我们得到利用LASSO估计得到的的残差为159.4559。我们发现无论是从残差或者模型预测的角度,我们得到的LASSO估计与真实值之间具有良好的拟合程度。
  2.弹性网估计。鉴于LASSO估计的一些缺陷,例如,在一组相关性较高的数据中LASSO估计只能从其中选取一个变量,而舍弃了其他相关性较高的变量。我们这里再使用弹性网估计来实现变量选择。该估计是合并考虑岭估计以及绝对约束估计得到的。在R软件中,使用glmnet程序包,首先我们利用交叉验证实现(cv.glmnet)参数的选择,并得到最小的调节参数为0.1616009。具体的可以直接利用cv.glmnet函数直接实现CV交叉验证。我们发现利用弹性网估计可以选择出的26个变量,得到估计的残差:210.2164。建立的线性模型为:
  Y=6.887*浦发银行+7.095*华能国际+0.710*上港集团+7.129*中国联通+2.306*宇通客车+5.146*特变电工+1.482*上汽集团+2.418*复新医药+2.253*万华化学+0.858*国电南端+0.725*驰宏锌锗+0.204*青岛海尔+2.195*长江电力+2.717*大秦铁路+5.384*北京银行+1.778*中国铁建+0.557*中国北车+11.793*中国中铁+12.534*工商银行+5.779*中国铝也+3.024*中国太保+10.379*中国建筑+2.656*中国交建+4.786*中国重工+10.155*中信银行
  我们可以发现弹性网估计和LASSO估计选取的变量是相同的,但是被选取的变量的系数还是不一样的。LASSO估计和弹性网估计拟合图对比如下:
  最后,与前面的聚类分析对比我们可以发现:一级分类里面1中的变量被踢出了;2中的变量都得到了保留;3中的变量都被踢出了; 4中被保留;5中只有浦发银行被保留;6中只有华能国际被保留,依次进行下去,我们可以发现在离差平方和的准则下和BIC的准则下,变量选择和聚类分析之间并没有很大的关联性。 这其中的主要原因就是因为我们在做聚类分析是选取的离差平方和准则,在做变量选择是用的BIC准则,我们猜测根据合适选择标准,在做变量选择时应该与聚类分析中的一级聚类有很高的关联性,但是这需要进一步的验证,我们就不再这里赘述了。
  三、结语
  在本文中我们首先应用最小二乘估计研究了ESG40股指及其成份股之间的模型建立问题。考虑到实际问题中成份股与股指之间的对应关系,我们借助主成分回归和岭回归这种有偏估计方法建立了有偏估计的模型,对相应的模型进行了检验分析。另外,在数值例子中我们发现相关系数矩阵有着很高的共线性,同时,我们在对最小二乘回归的模型做显著性检验是可以发现,有些变量的系数是不显著的。因此,我们首先做了依据离差平方和准则做了聚类分析,从40支股票中的到了24个一级聚类,这说明在离差平方和的准则下,40支股票中是存在相关性很强的股票的。然后,我们利用LASSO估计和弹性网估计做了变量选择。从我们的数值例子中可以发现,尽管LASSO估计与弹性网估计两种方法选出了相同的26支股票,但是对应变量的系数还是不同的。而且从残差的角度来看,LASSO估计的残差要跟小一些。另外,当我们使用LASSO估计(弹性网估计)选取的变量跟聚类分析中的一级分类之间看上去是没有什么关系的。我们猜测这里导致这个结果的主要原因是我们选取的标准的问题(聚类分析:离差平方和;LASSO: BIC; 弹性网:CV),如果选取合适标准,我们认为变量选择选取的变量是应该在一级分类里面的,至少应该存在某种合适的对应关系,这方面的探索就不再这里赘述了。
  参考文献:
  [1]Pearson K. On Lines and Planes of Closest Fit to Systems of Points in SpacePhilosophical Magazine[J],1901,2 (11): 559-572.
  [2]Tibshirani R.Regression Shrinkage and Selection via Lasso[J].Journal of the Raoyal Statistical Sosiety.Series B,1996,58(1):267-288.
  [3]Zou H,Hastie T.Regularization and variable selection via the elastic net.Journal of the Royal Statistical Society,Series B,2005,67:301-320.
  [4]Hotelling H. Analysis of a complex of statistical variables into principal components[J]. Journal of Educational Psychology,1933, 24, 417–441, and 498–520.
其他文献
摘 要:剩余产权是共有产权住房的主要特征,也是共有产权住房主要的不确定风险,识别影响共有产权住房剩余产区推出的风险因素,构建基于解释结构模型的的剩余产权回购风险管理模型,根据解释结构模型的递阶层次关系,得出共有产权住房剩余产权回购的根本因素,为共有产权住房剩余产权回购过程中的风险管理提供依据。  关键词:共有产权住房 回购风险 解释结构模型 风险研究  一、引言  共有产权住房属于保障房种类之一,
期刊
摘 要:对大学生社会主义核心价值观的培育,是高校思想政治教育工作的重要内容之一。为更好地推动高校思想政治教育工作,使之更具针对性和有效性,真正实现高校育人功能,必须认真研究和分析当代大学生社会主义核心价值观的影响因素。影响大学生社会主义核心价值观的因素主要有:家庭教育的影响;学校教育的欠缺;社会因素;网络普及的影响。  关键词:大学生 社会主义核心价值观 影响因素  党的十六届六中全会,第一次系统
期刊
摘 要:私立高等教育地位越来越重要主要是因为私立高等教育占高等教育的比重越来越大并逐步成为其主要部分。根据2009年第二届世界高等教育大会的报告数据显示在全世界范围内约有1.5亿人接受高等教育,而其中30%的规模数量归私立高校所有,也就是说有大约4500万学生在私立高校接受教育。私立高等教育在如火如荼地发展之中也会遇到瓶颈,那就是经费问题。韩国公立大学的经费可以来自各级地方政府的财政拨款和税收优惠
期刊
摘 要:本文简单叙述了石林县“十二五”期间旅游产业获得的成绩,再侧重分析了其存在的问题,针对问题,提出了促进石林旅游产业转型升级的对策措施。  关键词:石林 旅游 产业转型升级  一、“十二五”旅游产业发展现状  1.取得的成绩。  1.1旅游经济实力不断增强。2010-2015年是石林旅游快速发展的五年。5年来,石林景区年平均接待海内外游客突破300万人次达到360万人次,较“十一五”末期增长3
期刊
摘 要:随着改革开放以来,我国社会与经济的快速发展,环境问题的出现和全球生态环境的变化也越来越引起人们的关注。我国内地排放二氧化碳的数量与资源的使用量仅次于美国,环境污染也对每年的GDP造成3.5%-8%的损失。因此,企业的生产经营活动也成为资源的消耗者与环境问题的主要制造者,理应承担解决自身环境问题的责任,发挥环境治理与环保投资的主体作用。就目前看,国内外有关环保投资的研究成果主要集中在国家层面
期刊
摘 要:本文选取成都市温江区200户农户作为调研对象,对该区农户农地流转意愿及影响因素进行调查研究。同时,在调查数据的基础上,建立Logistic回归模型,定量分析影响农户农地流转意愿的因素。研究结果显示,农户参与农地流转的意愿主要受到三方面因素的影响:(1)非农收入占比,非农收入占比越高,农户对土地的依赖性越低,则越倾向于转出土地;(2)户主文化水平,户主的文化水平越高,参与土地流转的意愿越强;
期刊
摘 要:当中非贸易发展迈入21世纪的门槛,双方开始建立新型战略友好合作伙伴关系,这使得中非贸易取得了较大规模突破和发展,各国综合实力不断增强,国际地位也不断提高,改善了双方人民生活水平。但是在中非经贸合作发展过程也必然存在着一定问题和挑战,国家需要根据中国国情与国际市场变化来不断完善和提升中非贸易合作,使得双方能够顺利地开展贸易工作,提高自身国际综合竞争力。本文主要针对中非贸易的主要特点、中非贸易
期刊
摘 要:本文对管理会计从2006年到2015年的相关学术研究文献进行了述评以及总结,而在此过程中不难发现相较于1997年到2005年这一阶段关于管理会计方面的研究来讲无论是在研究方法还是在研究主题等等方面均出现了一定的改变。从研究主题上增加了业绩评级以及薪酬激励等,而在研究方法上更是增加了调查研究以及相应的实证研究等等,可以说学术研究更加呈现出多元化发展趋势。但是从整体上与国外管理会计方面研究对比
期刊
摘 要:我国经济运行进入新常态,中原经济区建设也在逐步推进,虽然河南省经济发展水平GDP总量在全国名列前茅,但是其经济发展已经进入“瓶颈期”,产业结构升级迫在眉睫。因此,河南省必须从根本上改变和完善自身产业结构现状,实现产业结构的优化,才能抓住机遇,实现经济的飞跃式发展。  关键词:产业结构 对策 经济研究  在中原经济区成为国家战略之后,河南省就开始抓住机遇,大力发展经济,意图为我国经济提供新的
期刊
摘 要:本论文从近年来马拉松赛事呈现井喷增长,市民跑步健身热情高涨现象出发,结合实际调研结果,分析了随之应运而生的“陪跑”职业以及相应的陪跑市场。针对目前的行业环境与国家相关鼓励政策,探讨了陪跑市场中存在的机遇与风险,最后给出了对于初创型陪跑公司占领市场的有关建议。  关键词:安全 道路 陪跑  近几年,中国境内的马拉松赛事呈现出了井喷的态势。透过马拉松我们可以发现全民跑步热的浪潮已然暗暗掀起,跑
期刊