论文部分内容阅读
金融领域每天产生的数据正在以惊人的速度快速增长,积累了非常庞大繁杂的各类数据,但“数据丰富可价值贫乏”成为了大众普遍现象,如何从海量金融领域数据快速找出有价值的决策信息,是令很多金融分析人士和市场投资者十分感兴趣的问题。年报是用来描述公司当年整个经营情况,既有文本内容描述公司基本情况、股东分布情况、重要事项等方面又有关于公司财务的报表数据。年报中管理层讨论与分析的情感语调不仅是年报处理的重点,而且是分析公司业绩情况的依据,将年报管理层讨论与分析情感语调和年报财务数据相结合分析能够帮助投资者们快速了解公司经营情况,做出高效且准确的决策。本文主要针对传统年报分析中验证年报管理层讨论与分析情感语调有效性和公司业绩预测准确性的方法存在的相关问题进行了研究,主要研究内容如下:(1)在传统年报管理层语调预测公司业绩研究中选择样本数据量有限,通常是某个行业或者是几家公司近五年的年报,数据集是偏小且不全面,其研究结果是存在偏差。本文采用爬虫技术扩大研究数据集,借鉴前研究者们的文献和考虑到两类正负情感词典存在的问题,选择五类年报情感词典,分别是积极、消极、盲目积极、不确定性、确定性情感词典。运用文本挖掘相关技术处理得到年报管理层讨论与分析两种情感语调TF、TF-IDF,通过朴素贝叶斯等模型建模,研究发现在年报财务数据基础上加入年报管理层讨论与分析情感语调特征数据,评估公司业绩预测模型相关指标都有一定程度上地提升,特别是基于朴素贝叶斯模型在年报财务数据不变的情况下加入年报管理层讨论与分析情感语调去预测公司业绩情况,其准确率从53.42%提升到61.27%,提高了将近8个百分比,证明了年报管理层讨论与分析情感语调提高了公司业绩预测模型的效率。(2)传统年报管理层讨论与分析情感语调与公司业绩预测研究中是基于两者做相关性分析,没有把年报管理层讨论与分析情感语调和年报财务数据相结合对公司业绩做预测分析。本文将横向对比公司业绩情况进行标注分类,运用支持向量机等相关模型基于年报财务数据和年报管理层讨论与分析情感语调相结合形成新的年报管理层讨论与分析情感语调去预测公司业绩,从而能够进一步分析公司的经营情况。(3)为了提高整个预测公司业绩模型的泛化能力和准确性,本文采用集成学习思想,构建一个更加高效且性能更佳的集成学习公司业绩预测模型,将多个预测公司业绩模型训练得到的预测值进行再次融合训练。通过集成学习的公司业绩预测模型的ACC和AUC相比于最优的基础模型,都提高了2个百分点,进一步提升了整个公司业绩预测模型的性能。