论文部分内容阅读
在当今信息化程度越来越高的产业环境中,文档的电子化管理是文档管理的必然趋势。它在成本上,管理上,安全上,传输上有着传统纸质文档所没有的优势。ECM(企业内容管理)即是在这一背景下产生的对于电子文档的管理系统。然而传统的企业内容管理系统依然具有三大问题,一是受到硬件的制约。随着电子化文档的不断增加,不可避免的会遇到硬盘容量不够,备份机制不健全等问题。由于受到当前硬件的制约,难以方便灵活的升级。二是依然缺乏智能的自动化分类方法,对文档的管理依然停留在保存检索层面.三是对大量文档识别所产生的处理速度问题。文档管理中最重要的一个特征是基于对内容的管理。因此对于电子化后文档内容的识别是必不可少的。然而文档识别十分消耗计算资源,因此对大量文档识别的处理速度问题一直是企业内容管理系统的课题。然而云计算的出现,为电子化文档提供了新的载体。作为一种商业计算模型,它将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算力、存储空间和信息服务。它使得解决传统企业内容管理系统存在的三大问题成为可能。本文就是结合实际项目,对云与文档电子化管理系统的结合做出解析,将系统搭建在由亚马逊提供的云平台上,并积极与各类SaaS(软件及服务)应用相协同,提出可实现的系统框架。介绍了基于云的企业文档分类与管理系统的实现方法,云上的存储机制以及云服务器间的通信方法。同时以此为基础,更进一步,对电子化文档管理中常见的OCR内容识别分类,运行效率问题进行研究。在以项目中专家经验关键词词库为基准进行企业文档分类的基础上,通过引入机器学习中的信息增益算法,进一步提高文档分类的精确度。并进行了测试与分析,评价了其效果。最后引入负载均衡算法,结合云计算平台与本系统自身的特点,从理论上提出了合理分配计算资源方式方法,在整体上提尚运彳丁效率。最后总结全文,对文中的企业内容管理系统进行了展望。提出了应深化与云平台的协同,同时加大在文档安全方面的研究,放心安全简单的实现在任意地点任意时间的文档操作。在文档分类方面,聚焦于企业业务流程中使用的特定文档,通过经验与机器学习算法想结合的方式,增加文档分类的精确度,将基于内容的文档自动分类功能实用化。