基于Spark的藏汉双语语料大数据分布式爬取

来源 :通讯世界 | 被引量 : 0次 | 上传用户：zhaohuihuang8801

【摘要】

：

藏汉双语语料库是对藏汉双语进行自然语言处理的必不可少的语言资源,利用万维网上已经存在的大规模藏语和汉语的语言资源使用Spark大数据技术进行深度爬取,构建出藏汉双语语

【作者】

：

严旭

【机构】

：

青海师范大学计算机学院

【出处】

：

通讯世界

【发表日期】

：

2017年23期

【关键词】

：

藏汉双语爬虫算法 SPARK 大数据分布式

【基金项目】

：

赛尔网络下一代互联网技术创新项目(NGII20160504),基于机器学习智能算法的高原多发病胆石症诱发因素挖掘研究(2017-ZJ-768),青海省物联网重点实验室建设专项(2017-Z-Y21)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

藏汉双语语料库是对藏汉双语进行自然语言处理的必不可少的语言资源,利用万维网上已经存在的大规模藏语和汉语的语言资源使用Spark大数据技术进行深度爬取,构建出藏汉双语语料库并提供基础数据支撑。本文设计出一种藏汉双语对URL进行深度爬虫的分布式算法,为藏汉双语语料库建设数据来源提供理论依据。

其他文献

浅析现代长跑速度素质训练的方法

这篇文章通过收集了大量的资料，并且通过对这些资料的仔细研讨分析和总结，结合在实际生活中的一些关于长跑的认知和人类身体发展的规律，对现代长跑速度素质的训练进行研究。通过

期刊

现代长跑速度素质训练方法

微课应用于中职计算机教学中的方式研究

随着当今网络科技的高速发展,微课作为一种全新的网络教学模式,被广泛的应用于中职计算机教学当中。由于微课的应用使中职计算机教学模式发生了本质的变化,同时也改进了教学

期刊

微课中职计算机教学方式

过氧化氢生产中氧化收率低的原因及解决措施

氧化反应是在氧化塔内进行，氧化塔分上下两节，每节底部有不锈钢多孔空气分散器，塔外有冷却夹套，空气与加了磷酸的氢化液一同进入上塔，反应完后再进入下塔，其反应流程见图1。

期刊

氧化收率过氧化氢原因生产氧化反应氧化塔冷却夹套反应流程

三维实体网格自适应划分算法

高质量的网格划分是三维建模研究的关键。根据对三维形体的几何特征和物理特征进行分析,给出三维网格划分的加密规则。通过研究网格加密区域和网格节点算法,设计基于Delaunay

期刊

三维体自适应局部加密网格划分Three dimensional entity Adaptive Local mesh refinement Mesh g

大规模网络开放课程MOOC发展现状分析与趋势预测研究综述——基于2012～2016年文献分析

“慕课”（MOOC）是教育界的研究热点之一。为了了解慕课在研究领域的发展现状和趋势，以近五年CNKI中MOOC的相关文献为研究对象，采用文献计量的方法对文献进行了基于研究数量、期刊

期刊

慕课研究现状发展趋势潜力领域

浅析企业文书档案管理中存在的问题及对策

摘要：在企业的档案管理工作中，企业的文书档案管理是其中最为重要的内容，它在企业档案的管理工作中起着基础性作用。这篇文章就明确的指出了当前我国在文书档案管理中存在的问题，并对这些问题进行了详细的分析，最后针对这些问题提出自己的解决对策。　　关键词：企业文书档案管理问题对策　　文书档案，是指机关、团体、企业、事业单位及其他社会组织在领导和行政管理等项活动中形成的具有保存备查价值的文件，又称管

期刊

企业文书档案管理问题对策

单叶片推进器及其运动特性

提出了一种新型的流体推进器——单叶片推进器，通过对叶片的运动学和负载的分析，建立了该推进器的运动方程。基于ADAMS环境，建立了单叶片推进器的虚拟样机，并进行了推进器系统的

期刊

流体推进器运动特性虚拟样机动力仿真Liquid propeller Motion characteristicVisual prototyping Dy

浅谈高校教师绩效考核现存的问题及对策

高校教师绩效考核是推动高校人事制度改革的一项重要内容。目前,很多高校加强了对教师的绩效考核,但是国内的教师绩效考核还处于初级阶段,存在诸多问题。本文将主要研究高校

期刊

高校教师绩效考核建议

清华大学精密仪器与机械学系简介

清华大学精密仪器与机械学系前身为成立于1932年的清华大学工学院机械系,20世纪50年代院系调整为清华大学机械制造系,60年代初又调整为精密仪器与机械系,80年代更名为现今的

期刊

精密仪器清华大学机械学科学与技术研究所机械制造制造工程设计工程

智能化技术在电气工程自动化中的应用

截至目前，智能化技术已经被引入电气工程，与电气工程自动化相结合，实现了电气工程的自动化与智能化控制管理。本文从智能化技术的应用优势入手，对电气工程自动化发展中引入的智能

期刊

智能化技术电气工程自动化应用

基于Spark的藏汉双语语料大数据分布式爬取

其他学术论文