论文部分内容阅读
信息技术的不断发展和进步,满足了人们对于数据的存储、处理和分析方面的需求。同时,在新的技术条件下,人们对于数据的需求会加速增长并伴随新的变化。这两者的相互作用使得信息技术的发展日新月异,也导致了数据库技术、数据挖掘技术、以及多种人工智能方法的出现。在当前十分热门的“大数据”研究背景之下,将数据挖掘技术与人工智能方法相结合,用以提高数据挖掘工作的效率和质量,正是近一段时间内研究的热门领域之一。另外,在金融界,量化交易和程序化交易方兴未艾。而这些方法正是将信息技术应用于其他领域的尝试。其中,利用数据挖掘技术来发展股票的交易策略,也是当前在业界研究和讨论的热点。本篇论文的研究内容之一便是在此背景之下,利用人工智能领域的一种新型智能算法—遗传网络规划,来解决关联规则的挖掘问题,并将挖掘得到的关联规则用于金融预测系统之中。 本文所利用的遗传网络规划是遗传算法的进一步发展。与遗传算法不同的是,它利用了有向图的形式来表示解的结构。同时它保留了遗传算法中的迭代进化的思想,通过种群的不断进化来得到问题的最优解。从这些特征来看,遗传网络规划仍属于进化算法的一种。但是,有向图形式的解结构使其能够较为灵活的表示复杂的问题。通过对该图形结构进行特殊的设定,本文实现了利用遗传网络规划进行关联规则的挖掘工作。 本文利用遗传网络规划的方法实现了在大型数据库之中进行关联规则的挖掘工作。与传统的关联规则的挖掘方法不同的是,遗传网络规划利用了进化计算技术来发现规则。其优势在于,新的方法避免了传统关联规则挖掘方法需要从较短的规则开始挖掘的缺点,实现了从挖掘流程开始阶段就获得任意长度的规则。而且,利用进化算法的自适应特征,针对所研究的问题设定相应的适应度函数,用以对所得到的关联规则进行评价。评价所得到的结果用于指导下一步的工作,以得到挖掘更符合研究目标的规则。这样的设计不仅提高了挖掘工作的效率,还改进了挖掘结果的质量。本文对利用遗传网络规划挖掘关联规则的算法进行了性能的评价。另外,将实验中挖掘的目标对象设定为股票价格数据,利用关联规则对股票的价格走势进行预测并用于指导股票的交易。实验结果表明,利用关联规则进行价格预测并指导股票交易能够得到良好的收益。 关联规则解决的问题通常为布尔型的变量。对于数量型的变量,挖掘方法需要首先对其进行离散化处理从而转化为布尔型的变量。简单的转化方法是将数量型变量直接地划分为几个互不重合的区间,这种划分方法明显存在几个问题。其一是边界划分过硬的问题。其二是边界选取的问题。通过引入模糊隶属度的概念,可以使其在边界之处的过渡有一个较为平滑的变迁。因此,利用模糊理论来对区间进行划分是一个很好的方法。本文采用了模糊聚类的方法来进行区间的划分。模糊聚类的方法将目标数据集中的个体划分至几个聚类中心之下,同时给出了每一个个体属于每一个类别的隶属度的值。这样就解决了区间的选择问题。在模糊关联规则问题的框架下,关联规则的支持度、置信度以及遗传网络规划之中的适应度函数都根据模糊隶属度进行了改进。在实证研究中,股票的价格数据通过模糊聚类的方法进行区间的划分,然后利用遗传网络规划的方法来进行模糊关联规则的挖掘工作。从实验的结果可以看出,由于模糊隶属度的引入相当于增加了关联规则中前项集之中的数据项的数量,因此模糊关联规则方法能够比传统关联规则方法产生更多数量的规则。并且,由于模糊聚类方法对于区间划分的影响,使得规则在不同规则库中的分布更加均匀。这样的好处是避免了很多无意义的交易,降低了交易的频率,增加了预测的准确性。 针对传统的关联规则问题没有考虑不同数据项项以及规则之间重要性差异的问题,本文将权重的思想引入关联规则问题之中,并建立了利用遗传网络规划进行加权关联规则挖掘的方法。在实际中,规则中项与项之间的重要性往往存在较大的差异。为了区别不同数据项之间的重要性的差异,本文在关联规则的问题中引入了针对数据项、项集、交易以及规则等这些关联规则基本元素的权重的概念。与此同时,对于关联规则之中的支持度和置信度指标、遗传网络规划的适应度函数均根据权重的概念相应进行改进,使得规则的支持度、置信度以及适应度函数可以根据其权重进行调整。在加权关联规则的问题之中,为关联规则中的项分配权重是一个难题,由于关联规则所研究的数据库之中所包含的数据项的数量通常较大,因此单独为每一个数据项分配权重是一件不现实的工作。同时,所赋予权重的大小如果是主观选定又会对规则的挖掘工作产生较大的影响。本文通过引入一个所谓的间接变量,提出了一个权重的动态分配方法,用于解决权重的分配问题。在股票预测问题中,股票价格变动与其成交量变动的关系被用作动态分配权重的依据,即股票成交量的大幅变动能够更强的支持股票走势发生变动。在实证研究中,我们对比了利用普通关联规则以及加权关联规则来进行股票预测所得收益以及预测精确度的情况。结果表明,加权关联规则能够发现更重要的规则。与普通关联规则相比,新方法能够获得更多的收益和更高的预测准确度。 如何将挖掘得到的规则应用于股票的预测和交易是本文研究的一个特色。目前,将关联规则应用在证券市场的研究中,大多数研究的结果都是仅给出了挖掘所得到的规则,而如何利用这些规则指导股票交易却没有进一步的涉及。本文给出了一个如何将关联规则应用于股票预测问题和交易的方法。为了实现这一目标,文章对所挖掘的规则进行限定。基本的方法是将所要预测的目标股票的价格变动情况作为关联规则的后项,而关联规则的前项是市场中挑选出来的其他股票的价格走势。那么,挖掘得到的规则表示的是前项中股票的价格变动与目标股票价格变动的关系,同时这些挖掘得到的规则根据目标股票的变动方向被存储于不同的规则库中,这样不同的库就代表股票不同的走势。预测的基本思路是检查当前数据与哪一个规则库具有最佳的匹配,规则库所代表的方向即为预测的方向。这样的设计,使得关联规则可以用于股票的预测问题之中,并且实现了自动化交易。量化交易以及程序化交易是当今热门的研究方向,该方法无疑为此类研究提供了新的思路。 文章的最后一部分根据适应性市场假说建立了一个人工金融市场,并将遗传网络规划的方法融入到人工金融市场之中。作为一个新兴的研究方向,人工金融市场利用计算机技术来模拟一个交易市场。这种方法可以用于简化研究问题所处的环境,使得传统金融研究方法很难涉猎或者解释的问题,变得易于分析和说明。文章所建立的人工金融市场,利用遗传网络规划的方法,体现了交易者的异质性、适应性等特征。首先该人工金融市场中包含了三种类型的交易者(基本面分析交易者、噪音交易者、技术分析交易者),这三种类型的交易者分别持有不同的投资理念以及不同的风险偏好,这些设定都是为了实现交易者异质性的特征。另外,为了体现交易者对于市场的适应性,本文利用遗传网络规划构建了技术交易者的分析技术模型,作交易的基本策略。同时,该人工金融市场中的交易者还会通过其收益情况来选择是否更换预测模型,这些设计都反映了交易者的适应性。除了关于交易者的设定,该人工金融市场还包含了定价机制。该定价机制参照了上海证券交易所和深圳证券交易所的开盘集合竞价阶段的定价方法。在实验阶段,本文利用该人工金融市场分析了四种不同类型的市场之中的价格特征以及过度波动情况。利用该人工金融市场产生的结果,我们对有效市场假说、适应性市场假说、过度波动问题以及成交量的差异四个问题进行了分析。结果表明有效市场假说在理性交易者占优市场和噪音交易者占有市场是成立的。而当非理性交易者数量减少以后,如果没有做空的条件,有效市场假说所提及的价格回归现象却很难实现。另外,对于过度波动的分析,我们发现,四种类型的市场之中均存在这过度波动的问题。但是四种类型的市场间过度波动现象并没有显著性的差异。过度波动的来源在于交易者之间对于股票价格预期的判断差异。除了对于市场价格的讨论,本文还验证了资产价格预期的差异造成的成交量的变化。我们发现对于资产价格预期的差异是实现资产成交的重要因素。四种类型市场之中,对于资产价格预期具有较大差异的市场能够实现最大的成交量。