论文部分内容阅读
随着社会对于半结构化和非结构化信息技术应用和规模需求的急速增长,内容管理作为一种专门针对非结构化信息管理技术,正在逐步成为信息管理技术发展的一个重要方向。与存储在关系数据库中的结构化数据相比较,内容管理的主要管理对象是以各类非结构化数据为主的数据信息,比如:公司里面的各种报表、账单和网站中的各种的图片、影像、大量的音频和视频信息等。科技奖励评审系统作为内容管理中的一项,每年都要面临着很多非结构化数据的处理问题,例如文档、图片等非结构化和半结构化信息。其中,项目管理、申报、推荐、审查、专家在线评审及成果发布是科技奖励评审工作的重要组成部分,在这些组成部分中,每个条例都有严格而明确的评审规定,因此,申报信息所涵盖的数据必须准确才能保证业务流程对申报资料的有效处理,使得评审结果公正公平合理。显然,申报资料的有效填写、上传及处理是极为关键的。科技奖励系统中出现的非结构化信息的准确抽取是本文要解决的问题。针对现有科技奖励系统中出现的内容管理问题,本文以非结构化数据中一种常用类型——Word文档为例,分析和研究了科技奖励评审活动中支撑业务流程的数据处理问题。首先介绍了非结构化数据处理的研究现状,介绍了开源内容管理系统一—Drupal,具体分析了Drupal的优缺点及应用于昆明市科学技术奖励管理系统的可行性;接着介绍了科技奖励评审活动的具体流程,并给出昆明市科学技术奖励管理系统的具体设计与实现,指出在该业务流程中申报信息在各个模块中准确传递的重要性。通过对评审活动中申报资料处理中出现的问题进行分析,提出以开放性的Word文档为手段解决申报资料填写、上传及对申报信息准确处理的问题。然后介绍了如何对申报信息进行上传、存储、管理及展现的方法和策略,论述了基于Drupal的安全性存储策略和上传下载安全性。对系统中Word文档数据准确抽取效果进行了总结,最后论文提出构建一种新的数据结构模式来处理非结构化信息,对该数据结构进行了详细阐述,并分析了该数据结构处理非结构化数据的优缺点,提出下一步的总结研究工作。