基于Hadoop架构的大数据文本分析研究

来源 :兰州理工大学 | 被引量 : 1次 | 上传用户:youyanma
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们正处于“大数据”时代,大数据的出现为处理海量数据带来了新的机遇和挑战。大数据在现代社会发挥了重要作用,为了从大量的数据中找到有用的信息,需要对数据进行分析。数据分析需要从文本、图像、视频或社交媒体帖子等出现在网络上的非结构化数据中获取信息。本文概述了大数据的优势和研究范围,介绍了 Hadoop架构及其组件中的大数据文本分析,还重点研究了大数据在数据挖掘中的应用。文本分析是工业分析中最复杂的数据分析之一。原因是在开发文本挖掘时需要处理非结构化数据(电子邮件、Facebook、Twitter和Linkedin提要),没有明确定义观察和变量(行和列)。因此,要进行任何类型的数据分析,都需要先将这个非结构化数据转换为结构化数据集,然后继续使用普通的建模框架。将非结构化数据转换为结构化格式的附加步骤由单词字典提供便利,需要一本字典来做任何类型的信息提取,情感分析词典可以在网上找到。然而,对于某些特定的分析,用户需要创建自己的字典。本文用Hadoop eco系统描述了文本分析的两个概念部分,以及具体的MapReduce。第一种方法是从2013年的tweets中收集一个大的文本文件(CSV文件)。这些tweets是使用DataSift流从Twitter的tweets中提取的一个小样本。信息流中的tweets被过滤,它们提到了苹果的产品,如iPhone、iPad、Apple Watch等。论文接下来对兰州理工大学的校区交通车数据进行了应用处理。本文的应用是通过对校兰工坪校区和彭家坪校区之间车辆运输自动确定系统的开发来实现。该应用程序可在iPhone和iPad设备的iOS平台上使用。该应用程序自动收集所有当前的GPS数据,为下一步校园巴士的研究提供了基础。将这个程序应用到Hadoop eco系统中,可以了解校园之间的交通堵塞和校车接送学生不足的时间。该应用程序还可以收集关于学生或乘客位置的实时信息,并可以确定最近的公交车站或校园。研究收集的大数据可以进一步的分析。本文解决了将文本数据处理转换为MapReduce作业来运行的主要问题。DataServices作业的errorlog只包含生成的Pig脚本提供的errorlog。它可能已经指出了问题的根源。另一方面,这里可能没有列出其他类型的问题。相反,用户需要检查Hadoop中关于Hadoop或MapReduce的日志文件。
其他文献
非法证据排除规则是证据制度中一项非常重要的规则。随着刑事诉讼保障人权潮流的兴起,这项规则越来越多的为各国重视和采纳。我国也从上世纪末开始对排除规则展开了学术研究,
为推动北京青少年工作的创新发展,全面深入跟踪研究北京青少年的发展动态,对北京青年群体开展了大规模的青年发展状况调研活动。调查涉及个人需求、社会需求、"十二五"与青年
本文介绍中厚板轧制过程中有限元理论的运用,通过MARC软件对中厚板轧制过程中塑性变形有限元分析模型的建立和边界条件的确定进行了详细的阐述,比较真实地反映轧制过程中塑性
肠道既是机体主要的消化器官,也是体内最大的免疫器官;提高肠道免疫能力,降低或阻断病原和日粮抗原对肠道的危害,是促进仔猪健康发育的一个重要手段。本文对仔猪肠道免疫和营
目的比较3M ESPE Filtek Z350 Flowable纳米流动树脂(Filtek Z350流动纳米树脂)与而至富士IX GP玻璃离子水门汀(Fuji IX玻璃离子)应用于磨牙窝沟浅龋的临床效果,探讨更适合于
<正>目前,学术界关于畲族的起源有很多种说法,比如有武陵蛮及苗、瑶、畲同源说,东夷之徐夷说,河南夷说,古越人说,古闽人说,等等。本文拟从音乐角度,证明畲族民歌"景宁调"保存
经济型酒店行业经过资本的推动快速扩张后,接下来会面临品牌的整合。在未来的扩张战略中,特许经营是一种重要的手段,国际的经验已经验证中国的经济型酒店未来必然往这个方向
Ⅰ.Abstract(Chinese version)这份研究论文旨在从调查问卷中探讨中国男性的消费行为。此調查問卷包含了针对消费者行为方面的一些详细问题。根据Malhotra(2006,p.44)在他的
道德是一种实践精神,个体道德的养成是在实践的基础上将社会道德内化为个体道德意识并形成为道德品质的过程。个体道德养成也就是个体精神完善的过程。构成精神结构两翼的理