论文部分内容阅读
随着互联网技术的迅猛发展,大量的文本数据被产生出来,这些文本数据中蕴含着巨大的价值,如何从海量的文本数据中获取有用的信息便尤为关键。要实现对海量文本数据的信息挖掘,首先要解决的是对海量文本数据的有效存储与高效处理,Hadoop分布式平台以及Spark计算框架很好地解决了这两个问题。其次,对于文本数据价值的挖掘,可以通过文本挖掘算法来完成。然而,无论是Hadoop、Spark还是文本挖掘算法都涉及到大量的技术细节,充分掌握这些技术以完成海量文本数据的处理、分析任务是有一定难度的。本论文为了解决这个问题,设计并实现基于可重用组件的海量文本数据处理工具。通过该工具,用户可以对工具已经实现的海量文本数据处理组件进行使用,在工具的前端交互页面对这些组件进行组件的选择、组件参数的设置、基于组件编辑工作流并提交运行工作流以完成海量文本数据处理任务。该工具极大地降低了海量文本数据处理的技术门槛,做到无需编程便可以完成复杂的海量文本数据分析任务,使用户对海量文本的处理分析变得简单、便捷。本论文实现的工具主要功能如下:1.海量文本数据的支持:工具通过大数据技术实现了对海量文本数据的支持,包括海量文本数据的存储与处理。2.海量文本数据处理组件:组件将各种海量文本数据处理操作的封装并组件化,使其对用户可重用。工具对可重用组件的结构、运行进行了设计与实现,并在此之上实现了常用的海量文本数据处理组件,包括数据获取组件、文本表示组件、文本分类组件、文本聚类组件,以满足用户基本的海量文本数据处理需求。3.工作流:工作流基于组件将数据处理流程进行表达。工具在组件的基础上对工作流的结构、运行进行了设计与实现,使用户可以通过组件与工作流定义其海量文本数据处理任务的具体流程,完成海量文本数据的处理分析任务。4.工具前端交互页面:通过工具的前端交互页面,可以浏览工具已实现的海量文本数据处理组件的信息、设置组件的参数。同时,还可以通过组件编辑工作流并提交运行。