基于可重用组件的海量文本数据处理工具的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户：buyaowenwo123456

【摘要】

：

随着互联网技术的迅猛发展,大量的文本数据被产生出来,这些文本数据中蕴含着巨大的价值,如何从海量的文本数据中获取有用的信息便尤为关键。要实现对海量文本数据的信息挖掘,

【作者】

：

马超

【出处】

：

北京邮电大学

【发表日期】

：

2018年01期

【关键词】

：

组件工作流海量数据处理工具文本挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的迅猛发展,大量的文本数据被产生出来,这些文本数据中蕴含着巨大的价值,如何从海量的文本数据中获取有用的信息便尤为关键。要实现对海量文本数据的信息挖掘,首先要解决的是对海量文本数据的有效存储与高效处理,Hadoop分布式平台以及Spark计算框架很好地解决了这两个问题。其次,对于文本数据价值的挖掘,可以通过文本挖掘算法来完成。然而,无论是Hadoop、Spark还是文本挖掘算法都涉及到大量的技术细节,充分掌握这些技术以完成海量文本数据的处理、分析任务是有一定难度的。本论文为了解决这个问题,设计并实现基于可重用组件的海量文本数据处理工具。通过该工具,用户可以对工具已经实现的海量文本数据处理组件进行使用,在工具的前端交互页面对这些组件进行组件的选择、组件参数的设置、基于组件编辑工作流并提交运行工作流以完成海量文本数据处理任务。该工具极大地降低了海量文本数据处理的技术门槛,做到无需编程便可以完成复杂的海量文本数据分析任务,使用户对海量文本的处理分析变得简单、便捷。本论文实现的工具主要功能如下:1.海量文本数据的支持:工具通过大数据技术实现了对海量文本数据的支持,包括海量文本数据的存储与处理。2.海量文本数据处理组件:组件将各种海量文本数据处理操作的封装并组件化,使其对用户可重用。工具对可重用组件的结构、运行进行了设计与实现,并在此之上实现了常用的海量文本数据处理组件,包括数据获取组件、文本表示组件、文本分类组件、文本聚类组件,以满足用户基本的海量文本数据处理需求。3.工作流:工作流基于组件将数据处理流程进行表达。工具在组件的基础上对工作流的结构、运行进行了设计与实现,使用户可以通过组件与工作流定义其海量文本数据处理任务的具体流程,完成海量文本数据的处理分析任务。4.工具前端交互页面:通过工具的前端交互页面,可以浏览工具已实现的海量文本数据处理组件的信息、设置组件的参数。同时,还可以通过组件编辑工作流并提交运行。

其他文献

药物代谢酶基因多态性与膀胱癌易感性关系研究

【目的与背景】膀胱癌是严重危害人类健康的恶性肿瘤，在泌尿系肿瘤中占第1位。目前研究普遍认为膀胱癌是受环境暴露、个体遗传背景及基因环境交互作用影响的多因素疾病。

学位

膀胱癌基因多态性NAT2GSTCYP2C19

试论东汉庄园的积极意义

东汉政权建立之后,为了保护地主商人的利益,巩固统治,没有采取传统的＂重农抑商＂的政策,反而对商业采取放任的态度。所以,东汉的商业经济空前繁荣。与之相适应,出现了＂里有公侯之

期刊

地主庄园积极意义

免责医学定向生学习自我效能感调查研究

目的：了解免费医学定向生的学习自我效能感。方法：使用《免费医学定向生学习自我效能感调查问卷》对257名免费医学定向生进行调查。结果：免费医学定向生总效能感得分为71．49&#177

期刊

免费医学定向生学习自我效能感学习能力学习行为

ADU法制备UO2粉末中大批量高氟料的处理

讨论了在低温条件下UO2粉末的烧结行为,研究表明ADU至UO2的转化发生的烧结主要是由于氧化铀的还原放热使得物料局部过热造成的,在相同条件下的高氟料返炉其烧结性能受停留时

会议

ADUUO2粉末高氟料

香菇L808单孢杂交育种筛选试验

香菇L808单孢杂交技术路线:亲本选择→单孢分离→单核体菌丝确认→配对杂交组合→移植扩大繁殖→初筛→复筛→区别性鉴定→中间试验→示范栽培。选育出的香菇L16菌株主要栽培

期刊

香菇L808单孢杂交香菇L16

基于MapReduce大数据连接算法优化研究

近年来,随着信息技术、互联网的快速发展,数据采集终端迅猛增加,每天会产生海量数据,逐步进入了信息爆炸的大数据时代。大数据时代的数据具有数量巨大、结构复杂等特点,导致

学位

连接运算大数据环境负载均衡数据倾斜key代价

西部医务人员工作满意度及对医改的认知分析——以广西县级公立医院为例

［目的］了解广西少数民族地区县级公立医院医务人员的工作满意度现状，及其对医改的认知与评价，从而提出针对性建议。［方法］采用自行设计的调查问卷和定性研究的方法，对5个县级公立

期刊

县级公立医院医务人员工作满意度医改工作回报医院管理奖惩制度

国网江苏电力国内最大规模电网储能项目投运

<正>7月18日,江苏镇江电网储能电站工程正式并网投运。该储能电站总功率为101 MW,总容量202 MWh,是国内规模最大的电池储能电站项目。镇江储能项目建成后,可在每天用电高峰期

期刊

江苏电力储能电站大规模电网

共产国际驻华代表与中国革命关系研究（1920～1928）

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

学位

共产国际驻华代表中国革命关系

协同创新项目的动态利益分配方法

协同创新项目一般都是分阶段进行，且随着项目的进行，合作主体也在不断发生变化。基于此，以已经取得专利技术的高校寻求企业合作为起点，将之后的过程分为小试、中试和产业化，每阶段

期刊

协同创新项目多阶段利益分配目标规划collaborative innovation project multistage benefit distrib

基于可重用组件的海量文本数据处理工具的设计与实现

其他学术论文