论文部分内容阅读
摘要:数据管理使用词典,是指對企业数据的主要统计项、数据分析产业结构、数据流、数据分析信息存储、数据分析工作流程等内容进行的管理界定和说明。数据字典是数据库系统的中心,对于各种应用来说都十分重要,是信息系统数据分析阶段的主要工具。结合数据字典的设计原则,提供了各种各样的数据字典规范,并结合了各种信息处理的特点,合理地组成了各种形式的数据字典,能够在较大程度上提高信息处理流程中的搜索效果,并透过控制索引策略及与各数据字典之间的对应关系,以加强数据库的稳定性,以及提高数据安全的力度。
关键词:数据字典;数据库;索引技术
针对海量信息数据的搜索查找主要依赖于数据库进行技术,而利用网络数据库索引技术可以获得极大提升数据信息搜索的速度。利用网络构造唯一性索引,可以有效提高在数据库中对特定历史数据的搜索唯一性,并显著影响或减少在搜索中分组和排序的时间。不过,制作和保护索引往往都会耗费巨大的存储空间和时间。对于减少数据量高速增加造成的搜索效果降低,提供了一个采用多数据字典的搜索策略,能够大大提高搜索效果,降低不必要的系统费用,为数据库搜索提出了一个思路。
1 基于数据字典的数据库索引设计内容
1.1研究基于智慧建造的工程元数据标准
依托建筑工程实体信息、4M1E(人机料法环)要素管理、工程质量安全管理、企业项目管理等数据信息,创建企业智慧建造工程元数据标准,以此指导施工智慧建造,同时作为基础数据库应用于建筑全生命周期的管理。通过建设企业信息化建设的数据字典系统,对各种数据信息进行了分级编码,实现数据规范化应用;制定企业信息化数据标准,对数据类型、字段进行定义,实现数据信息结构化。
1.2研发基于大数据的智慧建造数字管理平台
通过研发基于大数据的智慧建造数字管理平台,将企业业务流程信息化,创建跨部门的联合审查机制,加强部门协作,打破信息孤岛;设定风险评价及预警体系,实现风险的智能预警及纠偏管理;引入生物识别技术,实现不同管理者对对应数据的定向推送及处理。
2 工程总承包项目商务数据库建设
2.1建立数据库
业务数据库系统的建立并非一次性的管理活动,是一个闭环的管理过程。公司还应设立商务系统数据库常设事业部,以承担数据库系统设计建设与发展过程中的各种工作。数据库系统建设项目工作启动时,由数据库系统建设部门负责编制数据库系统建设规划和有关规章制度,包括数据库系统的建设过程、管理部门和企业有关规范、指南、管理办法,以及各类数据管理表格等。所有的数据库系统工程建设制度和形式规则均须与建设企业的有关管理制度相配套。在数据库系统试运行阶段,数据库系统建设部门要不断加强对系统管理宣传和执行成效监测,同时兼顾对信息系统与数据的双重管理,以保证整体建设项目工作持续顺利开展。
2.2搜集数据资料
来源数据是整个系统数据库可以构建的基石,对数据的质量进行直接通过影响到整个数据库系统的好坏程度。在获取来源数据以前,数据库系统建立部门就应该先在公司内开展全面研究,以总结出最符合公司管理系统要求的资料类型和厚度。另外,各负责部门还应当按照数据库软件的特点,建立统一的工作表格与数据录入规范,以便于软件录入。而数据采集工作则应当由专职人员和项目的商业人员协同完成。要针对各个专业领域开展的工作,严格遵循数据采集规范并做好数据采集与总结,以保证数据的全方位、客观价值与准确度。
2.3数据分析及评审
数据进行收集完成后,再针对信息收集的数据逐一整理研究分析。针对异常数值误差,通过协调有关部门讨论与数据分析,选取合适的方式对误差数值加以调整,减少无效数据对指标趋势产生的影响;分析并探讨项目的个体差异,以避免因项目特殊性而对成本指标产生的影响,并反映指标的规律与共性。
2.4数据库发布
建筑企业可针对自身的实际状况,选用适当的开发工具实现数据库存储与使用。而针对数据管理需要迫切、数据积累需求量较小的企业,可通过excel累积指标数据。但对大量的数据进行积累,还需要依靠数据库人力资源管理等软件系统。公司既可选用目前市场上最成熟的软件系统,也可和其他软件企业共同开发。而积累的高成本数据则需要在企业内公开使用和系统检测,并设置使用权,以保证数据的安全和保密性。
2.5数据库更新
业务数据库是一种动态管理工具。当数据库系统形成自己之后,在持续学习应用的过程中,大数据分析也能够通过进行检测与反馈,而这些情况反馈也可以进行校正数据库的信息丢失,从而更好的为企业管理提供了更为合理的信息相关资源;在另一个关键方面,大数据库也要求我们针对中国国内建筑企业新的发展社会需要定期对组织结构进行全面调整与局部调整,通过融合这个行业内新的研究创新结果,让数据库系统持续的创新与迭代,从而更加有利于提升数据库系统建设的效果与品质。
3 数据字典索引策略
在数据库系统中,建立索引有助于增加搜索效果,但是建立并保持搜索需要时间和物理存储空间。所以,必须设置不同的搜索策略。主要有四类:根据汉字搜索策略,根据中文词组搜索策略,根据自定义关键词搜索策略,和二进制组索引策略。在具体使用中,索引策略的选用主要取决于数据类型的特性、搜索的实际需要,以及对系统资源的限制。
按字搜索:按字搜索策略研究,往往也可以作为小型企业数据库和非现代发展汉语数据库系统。它的主要好处是比较简便,不要求手动分词方法技术也易于实现。该算法能够用文言文进行搜索,且查全率最高,从而减少了手动分词方式的错误。
按词标引:按词标引是目前大多数中文数据库的标准选择策略。其优点与主要问题表现在:一、查准率相对具有较高水平。二是搜索速度更快。试验结果显示,在大型数据库系统中使用词组搜索查找速度比使用词组搜索查找速度快5~10倍。三、低空间膨胀率。一个词组往往含有多于一个词组,所以按词组进行搜索能够大大减少与非活动字典组合使用的搜索量,word索引文件的空间扩展速率比word索引文件低50% ~ 100%。按词搜索是智能化信息检索的重要前提。由于一个辅助词典都是基于单词,所以我们也只能通过按单词搜索才能真正做到企业的智能化搜索。关键词索引:关键词搜索是通过词汇提取的搜索技术,在提供基本词汇搜索的前提下,只对几个指定的词汇进行搜索。关键词是根据稀疏词典编入索引的。特殊字段中的文档通常由关键字索引。
二元组索引:该策略是在按词索引的前提下对高频词可以进行二元结构组合,又或者也可以在按字搜索时对高频率词进行一个二元结构组合。如果一个二进制文件包含一个分词词典或一个附加分词词典,它被称为逐字二进制文件。若其不包括分词字典或附加分词字典,那么就被叫做逐字二进制。二进制索引是对术语索引和单词索引的扩展。
经过上述分类,不同的搜索策略要求不同的搜索字典。图表一中分析了所得索引管理策略与多种信息数据字典的对应一个关系。
结语
综上所述,数据感知层亟需一个标准的物联网服务中间件,将碎片化的字符通过标准的服务协议转译为结构化的可供平台使用的消费数据。
参考文献
[1]宋晨阳,寇鹏,滕晓晓.基于数据字典的数据库索引技术研究[J].通信技术,2018,48(03):302-305.
[2]张勋.基于RDBMS的大规模非关系型数据存储技术研究[D].华中科技大学,2019.
关键词:数据字典;数据库;索引技术
针对海量信息数据的搜索查找主要依赖于数据库进行技术,而利用网络数据库索引技术可以获得极大提升数据信息搜索的速度。利用网络构造唯一性索引,可以有效提高在数据库中对特定历史数据的搜索唯一性,并显著影响或减少在搜索中分组和排序的时间。不过,制作和保护索引往往都会耗费巨大的存储空间和时间。对于减少数据量高速增加造成的搜索效果降低,提供了一个采用多数据字典的搜索策略,能够大大提高搜索效果,降低不必要的系统费用,为数据库搜索提出了一个思路。
1 基于数据字典的数据库索引设计内容
1.1研究基于智慧建造的工程元数据标准
依托建筑工程实体信息、4M1E(人机料法环)要素管理、工程质量安全管理、企业项目管理等数据信息,创建企业智慧建造工程元数据标准,以此指导施工智慧建造,同时作为基础数据库应用于建筑全生命周期的管理。通过建设企业信息化建设的数据字典系统,对各种数据信息进行了分级编码,实现数据规范化应用;制定企业信息化数据标准,对数据类型、字段进行定义,实现数据信息结构化。
1.2研发基于大数据的智慧建造数字管理平台
通过研发基于大数据的智慧建造数字管理平台,将企业业务流程信息化,创建跨部门的联合审查机制,加强部门协作,打破信息孤岛;设定风险评价及预警体系,实现风险的智能预警及纠偏管理;引入生物识别技术,实现不同管理者对对应数据的定向推送及处理。
2 工程总承包项目商务数据库建设
2.1建立数据库
业务数据库系统的建立并非一次性的管理活动,是一个闭环的管理过程。公司还应设立商务系统数据库常设事业部,以承担数据库系统设计建设与发展过程中的各种工作。数据库系统建设项目工作启动时,由数据库系统建设部门负责编制数据库系统建设规划和有关规章制度,包括数据库系统的建设过程、管理部门和企业有关规范、指南、管理办法,以及各类数据管理表格等。所有的数据库系统工程建设制度和形式规则均须与建设企业的有关管理制度相配套。在数据库系统试运行阶段,数据库系统建设部门要不断加强对系统管理宣传和执行成效监测,同时兼顾对信息系统与数据的双重管理,以保证整体建设项目工作持续顺利开展。
2.2搜集数据资料
来源数据是整个系统数据库可以构建的基石,对数据的质量进行直接通过影响到整个数据库系统的好坏程度。在获取来源数据以前,数据库系统建立部门就应该先在公司内开展全面研究,以总结出最符合公司管理系统要求的资料类型和厚度。另外,各负责部门还应当按照数据库软件的特点,建立统一的工作表格与数据录入规范,以便于软件录入。而数据采集工作则应当由专职人员和项目的商业人员协同完成。要针对各个专业领域开展的工作,严格遵循数据采集规范并做好数据采集与总结,以保证数据的全方位、客观价值与准确度。
2.3数据分析及评审
数据进行收集完成后,再针对信息收集的数据逐一整理研究分析。针对异常数值误差,通过协调有关部门讨论与数据分析,选取合适的方式对误差数值加以调整,减少无效数据对指标趋势产生的影响;分析并探讨项目的个体差异,以避免因项目特殊性而对成本指标产生的影响,并反映指标的规律与共性。
2.4数据库发布
建筑企业可针对自身的实际状况,选用适当的开发工具实现数据库存储与使用。而针对数据管理需要迫切、数据积累需求量较小的企业,可通过excel累积指标数据。但对大量的数据进行积累,还需要依靠数据库人力资源管理等软件系统。公司既可选用目前市场上最成熟的软件系统,也可和其他软件企业共同开发。而积累的高成本数据则需要在企业内公开使用和系统检测,并设置使用权,以保证数据的安全和保密性。
2.5数据库更新
业务数据库是一种动态管理工具。当数据库系统形成自己之后,在持续学习应用的过程中,大数据分析也能够通过进行检测与反馈,而这些情况反馈也可以进行校正数据库的信息丢失,从而更好的为企业管理提供了更为合理的信息相关资源;在另一个关键方面,大数据库也要求我们针对中国国内建筑企业新的发展社会需要定期对组织结构进行全面调整与局部调整,通过融合这个行业内新的研究创新结果,让数据库系统持续的创新与迭代,从而更加有利于提升数据库系统建设的效果与品质。
3 数据字典索引策略
在数据库系统中,建立索引有助于增加搜索效果,但是建立并保持搜索需要时间和物理存储空间。所以,必须设置不同的搜索策略。主要有四类:根据汉字搜索策略,根据中文词组搜索策略,根据自定义关键词搜索策略,和二进制组索引策略。在具体使用中,索引策略的选用主要取决于数据类型的特性、搜索的实际需要,以及对系统资源的限制。
按字搜索:按字搜索策略研究,往往也可以作为小型企业数据库和非现代发展汉语数据库系统。它的主要好处是比较简便,不要求手动分词方法技术也易于实现。该算法能够用文言文进行搜索,且查全率最高,从而减少了手动分词方式的错误。
按词标引:按词标引是目前大多数中文数据库的标准选择策略。其优点与主要问题表现在:一、查准率相对具有较高水平。二是搜索速度更快。试验结果显示,在大型数据库系统中使用词组搜索查找速度比使用词组搜索查找速度快5~10倍。三、低空间膨胀率。一个词组往往含有多于一个词组,所以按词组进行搜索能够大大减少与非活动字典组合使用的搜索量,word索引文件的空间扩展速率比word索引文件低50% ~ 100%。按词搜索是智能化信息检索的重要前提。由于一个辅助词典都是基于单词,所以我们也只能通过按单词搜索才能真正做到企业的智能化搜索。关键词索引:关键词搜索是通过词汇提取的搜索技术,在提供基本词汇搜索的前提下,只对几个指定的词汇进行搜索。关键词是根据稀疏词典编入索引的。特殊字段中的文档通常由关键字索引。
二元组索引:该策略是在按词索引的前提下对高频词可以进行二元结构组合,又或者也可以在按字搜索时对高频率词进行一个二元结构组合。如果一个二进制文件包含一个分词词典或一个附加分词词典,它被称为逐字二进制文件。若其不包括分词字典或附加分词字典,那么就被叫做逐字二进制。二进制索引是对术语索引和单词索引的扩展。
经过上述分类,不同的搜索策略要求不同的搜索字典。图表一中分析了所得索引管理策略与多种信息数据字典的对应一个关系。
结语
综上所述,数据感知层亟需一个标准的物联网服务中间件,将碎片化的字符通过标准的服务协议转译为结构化的可供平台使用的消费数据。
参考文献
[1]宋晨阳,寇鹏,滕晓晓.基于数据字典的数据库索引技术研究[J].通信技术,2018,48(03):302-305.
[2]张勋.基于RDBMS的大规模非关系型数据存储技术研究[D].华中科技大学,2019.