论文部分内容阅读
随着信息技术的迅猛发展和我国证券市场规模的不断扩大,如何对证券行业内来源众多、内容广泛的信息进行合理的集成,并在此基础上实施高效的挖掘,从而为市场各参与方制定决策提供有效的支持,已经成为信息管理研究领域和证券行业所共同关心的一个热点问题。本论文运用信息科学理论,特别是有关信息集成、数据仓库和数据挖掘等方面的知识,对该问题的各个环节进行了较为深入的研究,提出了较为完整的解决方案,并给出了一个具体应用实例。
在论文的研究工作中,创新点主要体现在以下三个方面:
·提出了“行业通用元数据框架”的概念并给出了GMFS的设计方案
论文提出了“通用元数据框架”的概念,针对证券行业信息化程度较高、信息类别众多、内容结构复杂的状况,从分析行业信息流构成、归纳行业常见分析模式着手,建立了证券行业的知识体系,并在此基础上设计了“通用元数据框架”在证券行业的应用实例--“证券行业通用元数据框架(GMFS)”。论文以Dublin Core为参照,较为详细地给出了GMFS的设计方案,并且从元数据语义分类、元数据库的结构分析以及GMFS与Dublin Core之间的映射关系等多个方面,介绍了GMFS的建立与完善方法,设计了利用GMFS构建具体元数据方案的算法流程。利用GMFS,可以规范应用系统元数据方案的构建过程与结构,提高证券行业信息集成与数据挖掘项目的开发效率,有效实现对各类信息的综合利用,不仅可以为实现行业信息全面、有效的集成,提供可靠的基础,而且可以作为设计具体元数据方案的依据和规范,避免因应用系统元数据方案设计的随意性以及由此产生的频繁变动,给实际工作带来的不便。
·建立了对半结构化信息进行集成的数据模型与处理算法
针对证券行业各类信息结构化程度不同而给信息集成工作带来较大困难的现状,论文提出了依据信息的结构化程度对信息进行分类的观点,将半结构化信息的结构特征归纳为“显性特征”与“隐性特征”两个类别,并且通过对这两类特征的深入分析,揭示了信息内容的层次性规律。在此基础上,论文深入研究了半结构化信息的主题解析、层次提取,以及对信息内容进行抽取和结构化存储的机制,并结合GMFS的建立,提出了证券行业半结构化信息的“基于GMFS约束的层次数据模型”(HDMCG),设计了基于HDMCG的半结构化信息的抽取算法,从而确定了对不同结构化程度的信息进行高效集成的方法。为避免由于信息结构变化与约束规则完善之间的不同步,导致出现“信息抽取异常”的结果,论文专门设计了“约束规则完善算法”,为从半结构化信息源中高效抽取数据,并最终完成数据仓库的构建,建立了完整的处理流程。
·设计了客户贡献度模型及相应的数据挖掘算法
为了实现利用集成后的数据对客户价值进行分析的目标,本文利用“客户价值细分理论”和“统一客户视图理论”,结合证券行业的特点,对客户的价值构成进行了深入分析,建立了对客户价值进行综合评价的“客户综合贡献度模型”(GCDC)。该模型的建立,可以较为完善地解决目前证券行业在客户价值分析方法上所存在的不足。针对使用传统聚类算法分析客户贡献度时表现出的类别间模式分布不均衡,类别内模式相似性较差等问题,本文对基于划分的经典聚类算法--“k-means算法”进行了完善,设计出了能够对客户的GCDC模型进行高效、合理分析的算法--“反馈控制k-means聚类算法”(FCKC)。该算法可以在多维空间内,依照控制参数集的要求,对客户价值进行有效的聚类分析,同时实现对孤立点(即特殊客户)的挖掘,有效实现了利用集成后的数据对客户价值进行分析的目标,为企业实施进一步决策,提供了可行而有效的途径。
在完成了GMFS框架、HDMCG模型、GCDC评价模型的构建和FCKC算法设计的基础上,本文针对实施集中交易后,证券行业数据存储集中、数据规模增大的特点,构建了信息集成与数据挖掘在证券行业解决方案的一个应用实例--DC-CRM模型,该模型以GMFS框架为基础构建元数据方案,以基于HDMCG模型的数据抽取算法和约束规则完善算法为手段,实施数据抽取和数据仓库的构建,运用GCDC模型和FCKC算法,对客户价值进行高效聚类,同时完成特殊客户的挖掘分析。该模型的设计,不仅可以解决传统CRM系统在大数据量情况下运行效率较低的问题,而且可以通过改变系统参数的方法,变更挖掘分析的目标,并且对向客户提供的优惠策略做出评价,从而为企业决策提供更多的支持。论文介绍了模型的总体结构、功能、数据的采集方法、清洗过程,并对数据挖掘的实施等方面的内容进行了探讨。