论文部分内容阅读
随着当今社会“信息爆炸”和“数据过剩”的现象与日俱增,面对着日益复杂的信息系统,如何消除数据库中的冗余噪音并获取有用的知识成为了人们的迫切需要。粗糙集是一种较新的软计算方法,近年来越来越受到学者和专家们的重视。它通常用于处理不精确、不确定的数据挖掘问题,凭借着其自身的优势在数据挖掘领域中扮演着越来越重要的角色。本文针对传统数据挖掘处理噪声数据不力的问题,从理论和应用两个方面对粗糙集属性约简进行了深入的研究。本文的主要工作包括:首先,分析了粗糙集理论在数据挖掘中的理论根据和基本原理,深入研究了粗糙集数据挖掘中的决策表属性约简问题。在总结现有约简方法的基础上,找到了重点研究的方向—将粗糙集理论与智能算法相结合。其次,在标准自适应遗传算法的理论基础上,提出了一种改进的自适应遗传算法。在该算法中,提出了新的变异算子与交叉算子公式,加快了遗传进化过程的收敛速度,有效的解决了标准自适应遗传算法容易陷入局部最优等问题。实验表明,改进的自适应遗传算法与普通遗传算法、传统自适应遗传算法相比,有更强的全局寻优能力。接下来,提出了一种基于改进的自适应性遗传算法的属性约简方法。在该方法中,还提出了一种新的遗传算法适应度函数。实验证明,该算法和传统的基于遗传算法的属性约简方法相比,有更强的属性约简的控制能力,加快了属性约简的速度。最后,在研究、分析了股票市场不确定性数据挖掘方法的基础上,提出了一个新的预测股票收盘价的数据挖掘模型。第一步,对数据进行清洗、转换和离散化,在离散过程中引入聚类分析,有效的解决了连续属性离散化的问题;第二步,运用改进的属性约简算法,对26个属性进行约简得到10个条件属性;第三步,采用基于时间序列的神经网络对245条股票技术指标数据进行了机器学习,建立起股票预测模型。实验结果表明,改进的基于粗糙集的算法对噪声数据的处理可行、有效,新的股票预测模型对于中国股市短期投资具有良好的指导作用。