论文部分内容阅读
航运市场瞬息万变,造成航运企业在运营过程中面临极大的风险。为降低运营风险,航运企业需要从多角度对市场进行分析,但是由于信息缺乏、对市场的分析过于人为化且缺乏系统,使得经营者对市场变化的把握缺乏主动性,预测与现实有较大程度的背离。港航EDI的广泛应用,为航运市场的分析提供了海量的基础数据,但港航EDI的常规报文内容庞杂而难以提炼,因此,如何对港航EDI信息进行进一步的加工处理,以便为众多的EDI用户的日常运作提供更多更有价值的信息,正日趋成为人们所关注的热点。在上述背景下,本文从理论和技术层面上对“港航EDI信息增值系统”进行了系统深入的研究,并将研究成果应用于原型系统的开发之中。 在港航EDI信息增值系统体系架构的设计过程中,本文首先分析了港航EDI用户的特征,并基于用户的需求设计了适合目前需求以及满足将来发展的一个统一的体系架构。其主要特征为:用户与后台数据库分离以避免用户对后台数据库的访问造成的大量系统资源浪费;Web服务器与应用服务器分离,并通过中间件传递用户的请求,从而提高了服务的效率;在后台对数据仓库、知识库与模型库进行协调以提高管理效率;提供Web服务器与应用服务器两种形式的接口,保证各类用户能顺畅使用系统资源;在后台数据管理中,通过数据仓库生成组件为信息增值提供完整与适用的数据。 在基于港航EDI的信息增值分析模型的构建中,本文着重对集装箱市场分析指标体系、集装箱运价指数编制方法及分析技术等问题进行了研究。其中:在市场分析方面,针对集装箱运输市场的特点,从航运企业的角度构造了一整套集装箱运输市场分析指标体系,并对这一指标体系的具体量化方式进行了规范化描述。此外,为克服目前集装箱运价指数计算中所存在的抽样信息不全面和信息噪声过大等缺陷,本文利用港航EDI源信息来生成集装箱运价指数,具体涉及计算方法的比选、运价类型的确定、样本的选择(包括货种、航线、样本数)等,在此基础上,确定了集装箱运价指数技术分析的指标体系。 在港航EDI信息增值系统的数据仓库设计中,考虑到用户需要从不同角度对市场进行分析研究,因此采纳了具有多维特征的数据仓库设计模式,从而克服了以往数据库中数据组织性差、利用率低的缺点,以满足决策支持对数据的分析要求。此外,考虑到系统的安全性问题,本文在数据仓库的设计中,通过对数据仓库中四个组成部分实施全面的安全控制,从而保证不同层级的用户都能安全地访问系统。 在基于港航EDI信息的数据挖掘过程中,本文首先基于粗糙集算法,提出了基于属性的相对约简方法,其核心是:通过属性约简找到最小归约集,由此生成规则。在数据的预处理中,本文对数据进行了泛化,通过确立属性的概念树,研究了港航EDI数据属性之间的隶属关系,保证了数据在属性提升时的完整性,并且为数据的进一步分析提供了准确完整的数据。 其次,本文针对数据缺失较多所引起的粗糙集算法运算效率降低问题,通过引入粗糙熵的概念,不再通过对属性重要度进行分析排序,而是通过属性中包含的粗糙熵进行比较,从而提高了生成规则的准确性。 此外,在提取数据中相关规则研究中,本文根据Apriori算法每次搜索频繁项集时都会对不满足最小支持度的数据进行扫描的不足,提出了“在扫描过程中约简了不满足最小支持度的数据项,缩减了数据库的规模”的设想,从而提高了搜索频繁项集的速度。 在港航EDI信息增值原型系统的开发中,本文采用PowerBuilder与EAServer技术完成了原型系统的开发。其中:采用关联数据库实现了对知识库与模型库的管理,并且对知识的搜索与生成机制进行了探讨。在信息增值分析过程中,本文对知识库、模型库与数据仓库相互协调机制进行了分析,通过系统对数据的处理实现了EDI的信息增值与知识提炼过程。