数据挖掘——证券投资分析的有力工具

来源 :长安学刊 | 被引量 : 0次 | 上传用户:pscc33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:数据挖掘目标和挖掘工具的正确选择直接关系到挖掘效果的好坏。面对内部规律极端复杂的证券市场,指出了只有将数据挖掘技术与证券市场自身的特点结合起来才能发挥其巨大的作用;提出了必须为数据挖掘建立科学的、客观的目标,这些目标必须以证券市场自身的规律为基础,并根据证券市场的特点提出了一个数据挖掘模型。
  关键词:数据挖掘;证券市场;方法
  文章编号:978-7-80736-771-0(2010)02-173-03
  
  一、问题的提出
  在证券市场里,千千万万个持有资金数额大小不等、投资理念各异、投资方法多样的投资者面对上千只股票分别做出各自的决策,再加上各种政经信息、上市公司经营表现、市场传闻等等因素的影响作用,导致了金融证券市场是一个内部规律极端复杂、较难预测把握的大系统。要想在一个复杂的、每天都推陈出新的系统当中立于不败之地,只有用手中的方法、工具很好地表述这个市场,才能真正从本质上抓住运作规律。
  一个市场可以从微观、中观和宏观的角度进行分析。现在比较成熟的分析方法主要有注重微观的技术分析方法和注重宏观的基本面分析方法。而证券市场不同于其它市场,其参与者众多,信息复杂,数据变化快。因此单从微观分析是很困难的,而宏观分析具有长期性,对近期的变化无法处理。中观分析既可以避免微观分析中的人被淹没在数据中,又可以避免宏观分析的不现实性。因此我们可以将每只股票作为整个证券市场的子系统来进行分析,充分利用数据挖掘等现代分析技术。
  从证券市场的历史可以发现,无论经济环境如何变化,股市怎么变化,必定有那么一些鹤立鸡群的股票,它们按照自身的规律运行。股票运行的随机性特别强,数据量巨大,使得我们无法分析哪些是有效数据,哪些是无效数据。不同的人对同一组数据有不同的观点,人的主观性会改变数据的真实面目。因此我们必须依靠客观的工具进行分析。计算机携术和数据挖掘技术的发展使得我们有了这样强有力的工具。
  二、数据挖掘目标和任务的确立
  I. 传统证券分析系统的缺点
  传统的技术分析系统的缺陷:传统的技术分析系统只能通过人为主观地设定技术参数,简单地显示技术形态,由人主观地或凭个人经验判断出入市的买卖机会,不仅存在技术参数取值的随意性、买卖信号的滞后性、技术形态研判的主观性,而且不具备模拟预测功能。传统的技术分析系统表面上是客观的而实际上是主观的。
  当今在市面上大量流行的各种证券分析软件都有一个共同的特点,即使用各种分析指标为预测工具。比如:量线指标、K线指标、MACD指标、KD指标、OBV指标、RSI指标等。[1]但是根据这些指标的预测都是类似瞎子摸象的预测,只见树木,不见森林,使我们无法发现数据背后的本质。
  2. 股市预测的科学思维方法
  对投资者而言,人在预测过程之中怎样形成自己的思维方式呢?科学方法论的常识是:重视对信息的把握和对规律的认识;努力锻炼、勤于思考、善于总结,形成科学的思维习惯和方式:借助现代技术和手段增强自己认识事物和分析问题的能力。科学的预测方法应该包括以下几个基本原则:
  (1)相关原则。建立在“分类”的思维高度,关注事物(类别)之间的关联性,当了解(或假设)到己知的某个事物发生变化,再推知另一个事物的变化趋势。
  (2)惯性原则。任何事物发展具有一定的惯性,即在一定时间、一定条件下保持原来的趋势和状态,这也是大多数传统预测方法的理论基础,如“线性回归”等趋势外推法。这些原则在证券市场上非常适用。
  (3)类推原则。这个原则也是建立在“分类”的思维高度,关注事物之间的关联性。证券市场经常出现板块之间的轮动,某一只股票带动所属板块,该板块又带动相关板块,最终诱发大盘启动。
  (4)概率推断原则。我们不可能完全把握未来,但根据经验和历史,很多时候能大致预估一个事物发生的概率,根据这种可能性,采取对应措施。散户、大户和庄家投资博弈型决策都在不自觉地使用这个原则。
  3. 经济理论给我们的提示
  西方经济学根据竞争程度的不同而把市场结构分成完全竞争市场结构、完全垄断市场结构、垄断竞争市场结构和寡头垄断市场结构4种。纵观中国证券市场上千只股票的价格走势,都具有这4种市场结构的某些特点。完全垄断市场在证券市场上的表现就是坐庄,有的庄家拥有某只股票流通股的90%以上,这种股票的涨幅也相当惊人,这与完全垄断市场结构具有非常相似的特点;而有的股票的所谓散户行为与完全竞争市场结构的特点极其相似。经济学对市场的划分给了我们一个很好的启发,也帮助了我们对数据挖掘目标的确定。
  4. 数据挖掘目标的确定
  数据挖掘是昂贵的,它需要耗费很大的精力用于数据收集、数据准备、软件集成、问题建模、模型生成、结果分析等等。那么我们又如何确定我们所花费的时间、金钱和努力是否值得?这就让我们在实施数据挖掘以前必须明确数据挖掘的目标、任务和使用的挖掘工具,来确保挖掘的结果是我们预期的。
  三、数据挖掘简介
  数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生的数据处理技术,是知识发现(Knowledge Discovery in Database)的关键步骤。
  1.数据挖掘方法
  数据挖掘的方法主要有关联分析、聚类分析、分类、预测、时间序列模式和偏差分析等[2]
  (1)关联分析。关联规则挖掘是由Agrawal等人首先提出的。两个或两个以上L变量的取值之间存在某种规律性,就称为关联。关联分为简单关联、时序关联和因果关联。
  (2)聚类分析。聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。
  (3)分类。分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。
  (4)预测。预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。
  (5)时间序列模式。时间序列模式是指通过时间序列,搜索出重复发生概率较高的模式。与回归一样,它也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
  (6)偏差分析。在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照值之间的差别。
  2.数据挖掘对象
  根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等[3]
  四、数据挖掘技术在证券市场分析中的应用
  中国证券市场多年来的发展已经产生了大量的有用数据,股票走势的规律也越来越清晰。我们期望使用恰当的数据挖掘技术来对股票的运行规律进行研究。
  数据挖掘的过程如下:
  1. 确定要研究的问题
  清晰地定义出要研究的问题,认清数据挖掘的目的是数据挖掘的重要一点。数据挖掘任务是:①以现有的具有明显趋势的股票为研究起点,找到与其具有共同特点的相似股票;②找到这些股票的价格、成交量等数据之间的相似性和关联性;③找到这些股票的传统技术分析指标(如:K线指标、MACD指标、KD指标、OBV指标、RSI指标等)之间的关联性;[4]④这些股票在关键价位所具有的共同特点;⑤应用时间序列方法进行趋势的预测和检验。
  2.数据准备,收集有关的数据
  需要收集的数据包括:日报行情信息,即日期、开盘价、最高价、最低价、收盘价、成交量;上市公司基本信息,即代码标识、代码、简称、行业、主营业务、区域、地域、上市时间、主承销商、上市推荐人等;时间信息,即日期标识、日期、季、月、日、星期等。
  3.数据的预处理(清洗、提取、转换、加载)
  (1)数据提取:从综合数据中取出当前需要的那部分数据。主要是代码、日期、开盘价、收盘价、最高价、最低价、涨跌幅等。
  (2)数据清洗:通过数据清洗获取有效的数据。典型的数据清洗任务有数据验证和数据映射(使数据源的数据在进入数据库前,其数据属性具有统一的标准,比如字段名称、类型、长度都统一。
  (3)数据转换:在数据清洗后存在一个数据整理和转换的过程,这一过程就是对数据进行变形,使之适应前端应用的需要。
  4.数据挖掘算法的选择
  (1)以现有的具有明显趋势的股票为标准应用分类和聚集挖掘方法,对上海和深圳股票市场的股票进行分类和聚集处理。
  (2)应用关联分析方法找出具有相同趋势的股票在成交量和涨跌幅之间的相似性。
  (3)应用关联分析方法对日报行情进行分析,发现单只股票自身价格、成交量和股票涨跌幅之间的关系。
  (4)应用关联分析方法找到传统技术分析指标与股票走势之间的关联性。
  (5)应用时间序列方法对股票走势进行修正和预测。
  (6)应用神经网络方法对股票进行预测、仿真和检验。
  (7)通过对大量数据的分析和挖掘后,使该系统具有自我学习的能力和对股票自动搜索、分类的能力。
  以证券市场为研究对象,探讨了传统经济模型与数据挖掘技术相结合的方法,发挥了传统经济模型定性分析的优势和数据挖掘定量分析的优势,以获得更加准确的预测结果。随着数据挖掘技术的不断改进和日益成熟,它必将被更多的用户采用,使管理者具有更高的智能决策能力。
  参考文献:
  [1]Richard Roiger,Michael Geatz.数据挖掘教程[M]北京:清华大学出版社,2003.
  [2]JiaweiHan.数据挖掘—概念与技术[M].北京:高等教育出版社,2004.
  [3]高洪深.决策支持系统(Dss)理论、方法、案例(第3版)[M].北京:清华大学出版社,2004.
  [4]黎话远,西方经济学[M].北京:高等教学出版社,2004.
其他文献
目的探讨DNA定量分析和液基细胞学检测对恶性腹腔积液诊断的应用价值。方法选取我院2013年8月至2015年8月间145名腹腔积液患者作DNA定量分析检查(DNA image cytometer,DNA-ICM
期刊
1957年3月出生。1982年毕业于安徽中医学院,获中医学学士学位。1995年在复旦大学遗传学国家重点实验室学习,现在安徽中医药大学神经病学研究所附属医院从事中西医结合神经病
耿燕,女,1967年9月出生。1990年7月毕业于原西安医科大学,2016年获病原微生物医学博士学位。一直从事医学检验的医教研工作,曾在香港中文大学交流学习,多次参与国家重大传染
手足口病(hand-foot-and-mouth disease,HFMD)是由多种人肠道病毒引起的儿童常见传染病,以发热和手、足、口腔等部位的皮疹或疱疹为主要症状,少数患者出现严重的神经后遗症,
目的研究球体开孔泡沫铝的相对密度在准静态压缩过程中对球体开孔泡沫铝压缩性能和吸能性能的影响。方法对准备的3种不同相对密度的泡沫铝试样进行准静态压缩试验。结果利用
陈茶,1970年5月出生。1994年毕业于重庆医科大学,医学硕士学位。主任技师,研究员,博士生导师。现任广东省中医院大学城医院检验科主任。目前担任中国合格评定国家认可委员会主任
摘 要:学校门户网站应该是学校较完整的业务在网络上的体现,而不应只是呈现集中教与学的各环节网络学习平台。在网站构架和信息组织过程中应该以此为原则。并应充分考虑教育性网站的评价标准,以期实现学校门户网站成为高效能虚拟学习社区的设想。  关键词:门户网站;网站架构;网站评价  文章编号:978-7-80736-771-0(2010)04-181-03    广播电视大学作为远程教育先驱,经过数十年实践
目的以黑蒜、黑枸杞等为主要原料,以出汁率、透光率、饮料中花色苷含量和DPPH自由基清除率为依据,研究酶解条件对复合饮料产率和稳定性的影响。方法选择纤维素与果胶酶比例、
目的提出一种预测专色油墨任意配比值的光谱密度分布曲线。方法根据密度相加性原理,专色原色与冲淡后的专色原色的光谱密度分布曲线之间不会相互交错,而是随专色比例增大平行