证券行业信息集成与数据挖掘的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:zyx_xingfu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅猛发展和我国证券市场规模的不断扩大,如何对证券行业内来源众多、内容广泛的信息进行合理的集成,并在此基础上实施高效的挖掘,从而为市场各参与方制定决策提供有效的支持,已经成为信息管理研究领域和证券行业所共同关心的一个热点问题。本论文运用信息科学理论,特别是有关信息集成、数据仓库和数据挖掘等方面的知识,对该问题的各个环节进行了较为深入的研究,提出了较为完整的解决方案,并给出了一个具体应用实例。   在论文的研究工作中,创新点主要体现在以下三个方面:   ·提出了“行业通用元数据框架”的概念并给出了GMFS的设计方案   论文提出了“通用元数据框架”的概念,针对证券行业信息化程度较高、信息类别众多、内容结构复杂的状况,从分析行业信息流构成、归纳行业常见分析模式着手,建立了证券行业的知识体系,并在此基础上设计了“通用元数据框架”在证券行业的应用实例--“证券行业通用元数据框架(GMFS)”。论文以Dublin Core为参照,较为详细地给出了GMFS的设计方案,并且从元数据语义分类、元数据库的结构分析以及GMFS与Dublin Core之间的映射关系等多个方面,介绍了GMFS的建立与完善方法,设计了利用GMFS构建具体元数据方案的算法流程。利用GMFS,可以规范应用系统元数据方案的构建过程与结构,提高证券行业信息集成与数据挖掘项目的开发效率,有效实现对各类信息的综合利用,不仅可以为实现行业信息全面、有效的集成,提供可靠的基础,而且可以作为设计具体元数据方案的依据和规范,避免因应用系统元数据方案设计的随意性以及由此产生的频繁变动,给实际工作带来的不便。   ·建立了对半结构化信息进行集成的数据模型与处理算法   针对证券行业各类信息结构化程度不同而给信息集成工作带来较大困难的现状,论文提出了依据信息的结构化程度对信息进行分类的观点,将半结构化信息的结构特征归纳为“显性特征”与“隐性特征”两个类别,并且通过对这两类特征的深入分析,揭示了信息内容的层次性规律。在此基础上,论文深入研究了半结构化信息的主题解析、层次提取,以及对信息内容进行抽取和结构化存储的机制,并结合GMFS的建立,提出了证券行业半结构化信息的“基于GMFS约束的层次数据模型”(HDMCG),设计了基于HDMCG的半结构化信息的抽取算法,从而确定了对不同结构化程度的信息进行高效集成的方法。为避免由于信息结构变化与约束规则完善之间的不同步,导致出现“信息抽取异常”的结果,论文专门设计了“约束规则完善算法”,为从半结构化信息源中高效抽取数据,并最终完成数据仓库的构建,建立了完整的处理流程。   ·设计了客户贡献度模型及相应的数据挖掘算法   为了实现利用集成后的数据对客户价值进行分析的目标,本文利用“客户价值细分理论”和“统一客户视图理论”,结合证券行业的特点,对客户的价值构成进行了深入分析,建立了对客户价值进行综合评价的“客户综合贡献度模型”(GCDC)。该模型的建立,可以较为完善地解决目前证券行业在客户价值分析方法上所存在的不足。针对使用传统聚类算法分析客户贡献度时表现出的类别间模式分布不均衡,类别内模式相似性较差等问题,本文对基于划分的经典聚类算法--“k-means算法”进行了完善,设计出了能够对客户的GCDC模型进行高效、合理分析的算法--“反馈控制k-means聚类算法”(FCKC)。该算法可以在多维空间内,依照控制参数集的要求,对客户价值进行有效的聚类分析,同时实现对孤立点(即特殊客户)的挖掘,有效实现了利用集成后的数据对客户价值进行分析的目标,为企业实施进一步决策,提供了可行而有效的途径。   在完成了GMFS框架、HDMCG模型、GCDC评价模型的构建和FCKC算法设计的基础上,本文针对实施集中交易后,证券行业数据存储集中、数据规模增大的特点,构建了信息集成与数据挖掘在证券行业解决方案的一个应用实例--DC-CRM模型,该模型以GMFS框架为基础构建元数据方案,以基于HDMCG模型的数据抽取算法和约束规则完善算法为手段,实施数据抽取和数据仓库的构建,运用GCDC模型和FCKC算法,对客户价值进行高效聚类,同时完成特殊客户的挖掘分析。该模型的设计,不仅可以解决传统CRM系统在大数据量情况下运行效率较低的问题,而且可以通过改变系统参数的方法,变更挖掘分析的目标,并且对向客户提供的优惠策略做出评价,从而为企业决策提供更多的支持。论文介绍了模型的总体结构、功能、数据的采集方法、清洗过程,并对数据挖掘的实施等方面的内容进行了探讨。
其他文献
快速发展的现代互联网在带给人们大量信息的同时,也不可避免的产生了如何让用户快速有效获取信息的问题。作为一种常见的Web信息资源检索工具,搜索引擎日益受到人们的关注和广
针对如何选择和确定农业科技信息共享中关键信息质量(IQ)维度问题,采用专家调查方法,从对IQ的实际感知程度和理论认识两方面对相关领域专家进行调查,辨析对农业科技信息有影
随着中国政府信息公开的不断加强,政府信息资源数量不断增长;同时,公众对政府信息资源的利用需求也在不断提高。为提高中国政府信息资源的社会利用水平,充分发挥出政府信息资源所
石油是我国重要的资源,目前油价低迷从而影响了石油企业的发展.石油企业由于行业垄断造成了很多的问题并且社会上也对其提出了一些意见.我国新疆油田,特别是克拉玛依油田就与
首先分析知识转移的内涵、类型,进而构建知识转移的基本模型;其次概括分析国内外学者关于知识转移的研究视角,总体上分为:知识转移的模式、过程、要素、机制、规律和策略等;
针对如何在战争游戏中模拟竞争对手问题,提出战争游戏法分析框架概念.结合战争游戏法分析框架特性,建议将四角模型作为战争游戏法的分析框架.辅以真实案例,对四角模型分析框
通过对比中、美两国的图书馆学毕业生在职业竞争力方面存在的差距,从教育体制、社会环境、任职资格以及社会价值观方面对导致差距的原因进行分析,并提出相应的对策.
以山西省图书馆为例,通过读者、馆员满意度调查对图书馆知识转移效果进行评价,以知识资源、知识提供者、知识转移通道及知识接受者等影响要素为切入点,分析知识转移模式中现
针对目前分众分类法的缺陷,提出主题图Topic Maps这一解决策略,并对国外主题图驱动的标签网站Fuzzzy进行分析,在此基础上提出基于主题图构建知识专家学术社区的原型.知识专家