基于Spark的藏汉双语语料大数据分布式爬取

来源 :通讯世界 | 被引量 : 0次 | 上传用户:zhaohuihuang8801
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
藏汉双语语料库是对藏汉双语进行自然语言处理的必不可少的语言资源,利用万维网上已经存在的大规模藏语和汉语的语言资源使用Spark大数据技术进行深度爬取,构建出藏汉双语语料库并提供基础数据支撑。本文设计出一种藏汉双语对URL进行深度爬虫的分布式算法,为藏汉双语语料库建设数据来源提供理论依据。
其他文献
这篇文章通过收集了大量的资料,并且通过对这些资料的仔细研讨分析和总结,结合在实际生活中的一些关于长跑的认知和人类身体发展的规律,对现代长跑速度素质的训练进行研究。通过
随着当今网络科技的高速发展,微课作为一种全新的网络教学模式,被广泛的应用于中职计算机教学当中。由于微课的应用使中职计算机教学模式发生了本质的变化,同时也改进了教学
氧化反应是在氧化塔内进行,氧化塔分上下两节,每节底部有不锈钢多孔空气分散器,塔外有冷却夹套,空气与加了磷酸的氢化液一同进入上塔,反应完后再进入下塔,其反应流程见图1。
高质量的网格划分是三维建模研究的关键。根据对三维形体的几何特征和物理特征进行分析,给出三维网格划分的加密规则。通过研究网格加密区域和网格节点算法,设计基于Delaunay
“慕课”(MOOC)是教育界的研究热点之一。为了了解慕课在研究领域的发展现状和趋势,以近五年CNKI中MOOC的相关文献为研究对象,采用文献计量的方法对文献进行了基于研究数量、期刊
摘 要:在企业的档案管理工作中,企业的文书档案管理是其中最为重要的内容,它在企业档案的管理工作中起着基础性作用。这篇文章就明确的指出了当前我国在文书档案管理中存在的问题,并对这些问题进行了详细的分析,最后针对这些问题提出自己的解决对策。  关键词:企业 文书档案管理 问题 对策  文书档案,是指机关、团体、企业、事业 单位及其他社会组织在领导和行政管理等项活动中形成的具有保存备查价值的文件,又称管
提出了一种新型的流体推进器——单叶片推进器,通过对叶片的运动学和负载的分析,建立了该推进器的运动方程。基于ADAMS环境,建立了单叶片推进器的虚拟样机,并进行了推进器系统的
高校教师绩效考核是推动高校人事制度改革的一项重要内容。目前,很多高校加强了对教师的绩效考核,但是国内的教师绩效考核还处于初级阶段,存在诸多问题。本文将主要研究高校
清华大学精密仪器与机械学系前身为成立于1932年的清华大学工学院机械系,20世纪50年代院系调整为清华大学机械制造系,60年代初又调整为精密仪器与机械系,80年代更名为现今的
截至目前,智能化技术已经被引入电气工程,与电气工程自动化相结合,实现了电气工程的自动化与智能化控制管理。本文从智能化技术的应用优势入手,对电气工程自动化发展中引入的智能