基于数据挖掘分类技术的金融数据分析工具的研究与实现

来源 :北京航空航天大学 | 被引量 : 0次 | 上传用户:zhongkelong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国的证券市场成立十几年以来,随着信息化的发展,金融机构积累了大量的原始数据.激增的数据背后隐藏着许多重要的信息,人们可以对其进行更高层次的分析,以便于更好的利用这些数据.本文尝试从数据挖掘的角度,以上市公司的财务困境预测入手,对金融数据分析做了一定的研究.分类是数据挖掘中的一项非常重要的任务,目的是提出一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的一个,可以用于预测.本文对决策树算法和支持向量机(SVM)算法做了分析和研究,并把他们应用在上市公司财务困境的预测中,取得良好的效果.本文在C4.5和SVM的基础上实现了一个基于数据挖掘分类技术的金融数据分析系统,包括数据采集模块、预处理模块和数据挖掘模块几个部分.数据采集模块能够从web网页以及分析家的数据中获取上市公司的各种数据.而通过预处理模块,本文把采集出来的数据经过复杂的抽取和整合,集成到数据库中,并完成了一个完整的CCER中国证券市场数据库.最后,本文实现了C4.5挖掘模块和SVM挖掘模块,使得用户可以完成数据挖掘的功能.由于上市公司财务数据以及收益数据涉及到大量的字段,如果不加处理将导致维数灾难和过拟合问题.本文在降维方面也做了一定的研究,分别采用了主成分分析和基于SVM的RFE算法对数据进行降维,取得了很好的效果.另外,本文对SVM-RFE算法进行了一定的改进,提出SVM-RFEE算法,该算法同时考虑了属性的贡献和分类准确率的变化.
其他文献
在信息时代中,对信息处理和利用能力的强弱成为了决定企业兴衰成败的关键.随着Web技术的迅速发展,有越来越多的企业开始利用数据分析技术进行企业重整.这就决定了信息时代将
该文工作的主要背景是中国科学院"十五"信息化建设重大项目——"科学数据库及其应用系统".科学数据库经过近20年的发展,已经建成了上百个不同数据类型、不同学科的专业子库,
该文针对应用领域中空间数据的不确定性,重点研究了不正确空间区域间的拓扑关系分析和模糊区域建模问题,在分析已有研究工作的基础上,提出了几种拓扑关系的形式化模型,能够更
学位
随着计算机网络的高速发展,电子邮件的应用越来越多,但是垃圾邮件也随之越来越猖獗.目前,针对不同的网络环境,出现了各种各样的邮件过滤模型,但是大多数并不能解决垃圾邮件对
由于近年来电信增值业务发展迅速,原有的业务接入方式已无法满足目前的需求,所以综合业务接入网关随之出现。目前电信运营商正在各地积极部署综合业务接入网关,但与其配套的
在高性能超标量处理器中,通过不断的提高并行取指和并行执行来提高处理器的性能已经变得相当复杂,而且程序的控制和数据相关性也使得处理器带宽提高受到很大的阻碍.踪迹处理
近年来,Internet正以令人难以置信的速度在飞速发展,越来越多的机构、团体和个人在Internet上发布信息、查找信息。虽然Internet上有海量的数据,但由于Web是无结构的、动态的,并
教育资源库是一个庞大的系统,包括大量的媒体素材库、课件库、题库、案例库、附件库等等,其多媒体教育资源种类繁多、形式各异.要有效的进行检索,除了要定义良好的资源库的逻
软件工程发展几十年,各种理论与技术不断涌现,但是各种异构系统之间的集成、规约,即实现软件系统互操作性(interoperability),以便达到领域复用的目的仍是软件面临的重大问题