大数据在高校教学中的应用

来源 :博鳌观察 | 被引量 : 0次 | 上传用户:wuchen2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  内容摘要 随着人工智能、5G技术、深度学习、移动互联网、智能手机、物联网等技术的蓬勃发展,全球图像数据正呈几何倍数的速度增长。同时,海量的数据也带来了存储和处理上的困难。存储容量往往同存储性能成反比,基于单节点的传统处理方法难以有效应对,而大数据中的分布式存储和计算技术等为解决这些问题提供了方案。文章从大数据和神经影像学的概念出发,介绍了具有代表性的分布式存储的处理系统及神经影像学领域中数据共享的现状,随后以脑网络为例介绍了神经影像学中的数据分析方法,最后对文章进行了总结和展望。
  关键词 大数据 高校教学 分布式存储
  1 引言
  随着人工智能、5G技术、深度学习、移动互联网、智能手机、物联网等技术的蓬勃发展,全球图像数据正呈几何倍数的速度增长。这些信息数据主要由使用智能设备的用户产生,具有极大的科研和商业价值。对于大数据的定义目前尚未有统一的说法,一些文献中指出,大数据是指具有复杂结构的海量数据,它们难以使用传统的方法和工具进行处理,它的过程包括数据的获取、存储、格式化、提取、管理、集成、分析和可视化。大数据的“大”对数据的存储和计算提出了更高的要求。另外,神经系统的新型检测和成像技术的发展带来了令人兴奋成果,同时也在数据存储、分析、计算等方面提出了挑战,而大数据技术的发展为这些问题的解决提供了新的途径。
  2 背景介绍
  2.1 大数据特征
  大数据相较传统数据具有体量大、速度快、模态多、难辨识和价值大密度低的特征[1]。大数据的类型多种多样,而处理大数据的方式主要有流处理和批处理[2]。流处理的处理机制是直接对大数据进行处理,而批处理所采用的处理机制则是先将大数据存储到介质中,后续使用时再对它进行处理,也称为先存储后处理。
  2.2 大规模神经影像
  脑科学研究是近年来的研究热点领域,随着人工智能等工具在脑科学领域的广泛应用,人类已可解码一小部分脑电波信号,脑机交互工程的突破也迈出重要的一小步,实现控制机械臂协助截肢者完成捉取食物等动作。2016年,欧盟启动“人脑计划”项目,耗资10亿欧元,计划研究时长达10年之久;紧随欧盟,美国也推出了美国版的人脑计划项目——“尖端创新神经技术脑研究计划”,该项目计划在10年内投入45亿美元的研究经费[3]。上述项目的投入掀起了脑科学的研究热潮,旨在通过融合神经科学、医学和计算机学等学科的多学科交叉研究,使用超级计算机对现有人脑大数据进行建模计算,探索人类脑部的结构、信息传递、功能及其相互间作用的关系,进而认识人脑活动和人类行为、脑部相关疾病之间的相关性,为开发新的脑部疾病治疗手段和药物研发方法提供理论依据和参考[4]。
  人脑大约由1011个神经元组成,而连接神经元的神经突触则高达1015对,构建成庞大而复杂的神经网络,它们通过相互作用共同完成人腦活动的各种功能。当前关于脑科学的影像学研究结果表明许多神经精神类疾病与人脑结构和脑功能网络的异常相关,这些研究结果能够给予治疗这些神经精神类提供指导,同时还可提供剖析神经精神疾病病理机制的新思路,而影像学特征则是临床医生对神经精神疾病进行诊断的依据,它们主要用于早期诊断和治疗。
  随着成像设备和成像技术的快速发展,大脑成像的数据量也在迅速增加。一旦这些方法被证实具有较高的可靠性和鲁棒性,那么使用相应的分析方法,研究者们能很快处理它们,而数据处理又会使得数据量成倍增加。事实上,许多关于fMRI(Functional Magnetic Resonance Imaging,即磁共振脑功能成像)的文章,比如行业里权威杂志NeuroImage上的一些文章中,提出自从1995年以来,收集的数据量每过将近26个月就翻一番。按照这种速率,在2015年,仅仅神经影像的图像数据量,每一篇发表的文章中,除去头信息数据处理过程中的信息和统计数据,平均数据容量就已经超过20 GB[5]。
  3 分布式存储与计算
  3.1 数据存储
  fMRI是神经影像成像的一个典型代表,其由于非侵入性、没有辐射暴露等优势广泛地应用于人及动物的脑或脊髓的研究中。在事件相关fMRI中,在常规的空间图像中加入时间维度,即图像是随时间变化的一系列图像。目前,在对老鼠的视觉皮质区域进行监视中,在8 s内的双光子成像可以产生512×512×4的像素。因此,每小时可以产生60 GB的数据。而在整个大脑激光片层扫描过程中,一条斑马鱼每2 s可以产生1000×2000×40个像素。因此,在1 h内会产生1.2 TBs的数据。而随着技术进步带来的空间和时间分辨率的提升,这些数据大小只会进一步增加。
  图像数据的爆炸式增长首先带来了存储的困难,为解决高效存储和快速处理图像数据,研究者设计了高性能分布式计算框架,也就是所谓的云计算平台[6]。云计算系统具有媲美超级计算机的计算能力,它采用分布式数据存储和处理技术,将多台计算机的计算能力进行汇总,达到存储和处理海量数据的能力。
  云计算系统主要采用GFS(Google File System)和HDFS (Hadoop Distributed File System)进行海量数据的存储和处理操作。其中,GFS是一个具有拓展功能的分布式文件系统,其对计算机硬件性能要求较低,并且具有较强的容错功能,在文件读写模式方面需要在应用程序的协助下完成某些具体操作,主要通过API接口实现与应用程序协同交互,这种设计方式有助于提高该文件系统的操作灵活性[7]。HDFS主要用于存储静态数据,它通过MapReduce将计算逻辑分配给云计算系统的各个数据节点,采用花整为零的方式进行数据计算[8]。客户端能够通过名称结点对元数据进行读和写操作,也可直接对数据结点进行操作[9]。HDFS由于具有可扩展性、效率高、能够在通用平台上部署、可靠性强、成本低等优势大受开发者欢迎,当前已逐步成为工业与学术界公认的海量数据并行处理标准[10,11]。   3.2 数据共享
  为了满足临床的需要和病人信息数据的查询共享,我国绝大多数医院都搭建了内部的医疗信息管理系统,如用于影像数据存储和传输的PACS系统,以及用于管理门诊、病历、药库等医疗信息的HIS系统。医院内部的医疗信息管理系统是医院数字化发展的重要产物,其能够服务于医院内各个医疗部门间的信息处理、交互、共享等需求,同时也可实现对公众发布本院临床专家的简介和坐诊时间等信息。医学影像数据是医院所产生数据的重要组成部分,占医院产生数据总量的90%以上,它既是临床诊断的主要依据,也是研究疾病的重要材料。如何存储和管理海量医学影像数据已成为我国医疗信息管理系统的首要问题。医学影像数据库作为存储、传输、管理、处理医学影像大数据的主要工具,是在普通图像数据库技术的基础上融合相关临床医学及生物医学等相关领域的关键信息发展起来的。
  当前,医学影像数据库的研究和构建已取得较好的成果,如由病理学家Dr. John Monarch创建的肿瘤及乳房影像的数据库、由ADNI(Alzheimer’s Disease Neuroimaging Initiative)创建的阿尔茨海默症数据库。而在国内,关于阿尔茨海默症临床数据的存储和管理仍无一个完善、成体系的管理系统,使临床影像数据采集不够规范完整,科学研究者无法充分利用这些影像数据进行深入研究。此外,帕金森综合征、脑连接组成像等领域也建立了相关的数据库,但国内对这些数据库管理同样存在阿尔茨海默症数据库同样的问题。这些数据共享和开放不仅是数据采集者的责任,同时也是数据库管理者的责任。后者需要妥善地对数据进行管理,以安全有效地提供给需求者相应的数据。但是,由于存在各种互不相关的项目,而且这些项目有的涉及伦理方面,在能够有效利用之前必须先妥善地处理好这方面的问题。神经影像数据的共享能够起到以下作用:能够广泛利用世界各地的数据;能够用于最新的方法当中;推广数据的重复分析和重复使用。
  4 神经影像学中数据处理方法:以脑网络为例
  目前,经过多年的积累,全球多家医院和多个知名实验室在对神经精神类疾病的研究中已积累不同研究领域的大量数据,这些大数据主要有基因组学的实验和临床研究数据、神经组学的实验和临床研究数据、多模态脑影像的实验和临床研究数据。由于实验数据量呈现几何倍数增长,以及数据间相关性的错综复杂,仅仅通过孤立的实验观测和传统的数据统计方法已难以剖析数据内部隐藏的规律。因此,如何利用大数据模型结合深度学习方法计算多尺度多模态的相关性,从基因层次到神经元层次再到脑结构网络层次形成多层次的学科交叉研究成为未来发展神经影像学的重要方向之一[12]。
  当前,神经影像学的一个研究热点是脑网络研究,其研究方法大致可分为两大类。第一类是基于组块—事件关联性的研究方法,如局部一致性分析法[13]、小世界模型分析法[14]、默認模式网络分析法[15]等[16];第二类是基于机器学习方法使用这些神经影像数据对患者进行个体分类及预测,其中深度学习已成为分析神经影像数据的重要方法[17,18]。
  应用机器学习方法对脑网络分析的前提是先构建脑网络,而脑网络的构建可分为功能性网络和结构性网络。通常,结构性的脑网络通过神经影像序列进行构建,如通过采集弥散张量成像或扩散频谱成像序列,再结合医学上的连接模式来创建大脑网络的相关性,并使用矩阵表示脑网络的相关性,从而构建出结构性脑网络。而功能性脑网络的构建则需要采集相关大脑区域活动的神经影像学时间序列,再结合聚合测量方法对这些神经影像学时间序列进行计算分析,从而得到神经影像学时间序列的相关性,这种相关性同样能够使用矩阵的形式进行表示,该矩阵代表了脑网络时间序列的相关性。
  应用机器学习方法对脑网络分析的关键步骤是使用神经影像数据进行特征学习,它为后续的网络分类提供重要依据。特征学习的一般步骤是先从脑网络数据提取用于学习的特征,通常选择一些有意义的网络局部测量作为学习的特征,然后采用机器学习中的一种或多种特征选择算法筛选出一些有助于分类和理解疾病的重要特征。机器学习方法应用于脑网络分析的目标在于对脑网络进行分类和预测。脑网络分析方法中广泛地使用机器学习和模式识别中的各种分类方法,其中,该方法因能够提供一个通用的框架而得到了广泛的研究和应用。
  5 结语
  随着成像设备和成像技术的快速发展,如磁共振波谱成像、扩散加权成像、灌注加权成像、扩散张量成像等成像技术的出现,极大地推动了神经影像学的发展,为神经影像科学家对大脑神经的结构和功能的认识和进一步研究提供了基础。但是,海量的数据也带来了数据存储、处理的困难。普通图像数据库技术由于其文件管理系统无法实现分布式存储和处理大数据,加上硬件设备无法提供大数据处理所需的强大算力,因而出现效率低、并发性低、可拓展性差等问题。现代化的大数据存储和处理技术,如云计算系统,在神经影像学上的应用可有效地解决上述问题。云计算系统所采用的分布式数据存储技术能够满足海量的数据存储和处理能力,它具有将存储资源进行抽象表示和统一管理的功能,同时还具有良好的数据安全功能,能够保障数据在安读写操作过程中的安全性。文章介绍了两种典型的分布式存储处理系统,即谷歌公司研发的GFS和Hadoop研发的HDFS系统,还对神经影像在数据共享方面的现状进行了综述,最后通过一个脑网络计算实例展现了神经网络中数据分析的一般流程。然而,目前在神经网络中,这些海量数据的存储和处理技术还远远未成熟。随着这些应用的进一步深入,必能推动神经网络学的进一步发展,为人类解开大脑的谜题奠定基础。
  【参考文献】
  [1]Cheng X,Jin X,Wang Y,et al. Survey on big data system and analytic technology[J].Journal of Software,2014,25(9):1889-1908.   [2]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(1):146-169.
  [3]顾凡及.欧盟和美国两大脑研究计划之近况[J].科学(上海),2014,66(5):16-21.
  [4]邵亚超,刘光明,吴思,等.面向高性能计算平台的脑科学仿真技术研究[J].北京师范大学学报(自然科学版),2015(6):576-581.
  [5]Van Horn J D,Toga A W.Human neuroimaging as a “Big Data” science[J].Brain Imaging and Behavior,2014,8(2):323-331.
  [6]张功荣.基于云计算的海量图像处理研究[D].福州:福建师范大学,2015.
  [7]蔡键,王树梅.基于Google的云计算实例分析[J].电脑知识与技术,2009(25):7093-7095+7107.
  [8]程学旗,靳小龙,王元卓,等.大数据系统和分析技术综述[J].软件学报,2014(9):1889-1908.
  [9]黄晓云.基于HDFS的云存储服务系统研究[D].大连:大连海事大学,2010.
  [10]廖彬,于炯,张陶,等.基于分布式文件系统HDFS的节能算法[J].计算机学报,2013,36(5):1047-1064.
  [11]陈吉荣,乐嘉锦.基于Hadoop生态系统的大数据解决方案综述[J].计算机工程与科学,2013,35(10):25-35.
  [12]汲小溪.大数据驱动的计算生物标识研究[D].上海:复旦大学,2014.
  [13]侯小燕,陈维翠,陈俊,等.组穴针刺治疗颈痛患者默认网络的ReHo研究[J].磁共振成像,2014,5(6):436-440.
  [14]Sanz-Arigita E J,Schoonheim M M,Damoiseaux J S,et al.Loss of “small-world”networks in Alzheimer's disease: Graph analysis of FMRI resting-state functional connectivity[J].PloS One,2010,5(11):13788.
  [15]Greicius M D,Srivastava G,Reiss A L,et al.Default-mode network activity distinguishes Alzheimer's disease from healthy aging: Evidence from functional MRI[J].Proceedings of the National Academy of Sciences of the United States of America,2004,101(13):4637-4642.
  [16]Bai F,Zhang Z,Watson D.R,et al.Abnormal functional connectivity of hippocampus during episodic memory retrieval processing network in amnestic mild cognitive impairment[J]. Biological Psychiatry,2009,65(11): 951-958.
  [17]田苗,林嵐,张柏雯,等.深度学习在神经影像中的应用研究[J].中国医疗设备,2016(12):4-9.
  [18]张道强,接标.基于机器学习的脑网络分析方法及应用[J].数据采集与处理,2015,30(1):68-76.
其他文献
内容摘要 随着信息技术的发展与多媒体的普及运用,多媒体辅助课堂教学已经成为中小学教学模式的主流。但是,在多媒体配备和运用多媒体教学方面,农村学校和城镇学校之间存在很大的差距,其中原因可以分为人为原因和客观原因。通过对县域内多所学校调查和走访学校教师,文章得出了农村小学数学多媒体辅助教学均衡发展的制衡原因和发展建议,希望在运用多媒体辅助课堂教学的方式上和多媒体均衡发展上能给广大教师和领导提供一定的帮
期刊
内容摘要 文章就我国当前高职院校学生就业质量的基本现状、影响高职院校学生就业质量的因素,以及如何提升高职院校学生就业的质量方面进行了简单的分析,希望可以促进我国高职院校学生的就业,满足社会各方的要求等。  关键词 提升 高职院校 就业质量 措施  1 引言  高职院校学生的就业质量直接关系着高职院校的办学质量及社会声誉,同时,提高学生的就业质量也是高职院校各专业的人才培养目标。因此,高职院校需要加
期刊
内容摘要 高职教育以培养高素质、高技能人才为目标,为适应不断变化的环境,高职教育改革脚步不能停滞。文章结合《成本会计》课程改革,尝试以实践应用导向教学方式应用于高职课堂,通过对课程内容、教学方法、考核方式等多方面的改革,以效果印证实践应用导向教学在高职教育中的有效性。  关键词 实践应用导向教学 高职教育 成本会计  1 引言  目前高等职业院校的主要生源为普通高中毕业生和职业高中毕业生两大类。比
期刊
内容摘要 法律教育的双重性在于法律制度的理性和法律教育的感性。为了培养适合社会发展进步的人才,院校应当深入法律教育的双重性质,探究法律教育的改革方式、目标。文章分析了法律教育的双重性,对中国法律教育存在的问题进行了探究,并提出了可行的措施建议。  关键词 法律教育 双重性 中国法律 教育改革  1 引言  目前,法律教育已成为当代高校教育和法学研究的重点内容,基于中国法律职业发展研究来看,法律职业
期刊
内容摘要 在新时代下,如何通过现代农业在乡村振兴战略规划中的重要作用,促进我国乡村振兴战略的更好发展,这是一个十分值得深思的方向。  关键词 现代农业 乡村振兴战略 重要作用  1 引言  我国是农业大国,而现代农业在我国的乡村振兴战略中具有十分重要的作用和地位。因此,加快现代农业在我国广大乡村中的落实与转变,发挥现代农业在乡村振兴战略中的重要作用,具有非常重要的意义。  2 现代农业在乡村振兴战
期刊
内容摘要 基于对现代职业教育体系建设路径的探讨研究,首先要明确现代职业教育体系的内涵与我国职业教育体系建设的现状,然后与其中内容相结合,对现代职业教育体系建设的有效路径进行分析,希望能够为有关人士提供帮助,促进现代职业教育的良好发展。  关键词 现代职业教育 教育体系 体系建设  1 引言  在社会发展的过程中,现代化意识已逐渐渗透到人们的思想中,尤其是现如今城市现代化与企业现代化都在如火如荼地进
期刊
内容摘要 农业产业技术创新战略联盟是一种以企业为承建主体的新型产学研结合的技术创新模式,对提升农业科技创新水平具有重要作用。文章从江苏开展农业产业技术创新战略联盟工作的重要性出发,分析了农业产业技术创新战略联盟运行时存在的问题,并在此基础上提出了今后联盟运行的发展趋势及思考,希望能以优化联盟工作为契机,进一步推动江苏现代农业实现高质量发展。  关键词 农业科技 联盟 发展趋势及思考  1 引言  
期刊
内容摘要 现阶段,随着计算机技术的深入发展,其应用范围也越来越广泛,在这基础上也促进了传统美术设计的发展,使其发展方向与发展形态都发生了明显的变化。基于此,文章主要对计算机美术设计与传统美术设计进行分析,以供参考。  关键词 计算机美术 传统美术 美术设计  1 传统美术设计与计算机美术设计之间的联系  随着计算机技术的发展,美术设计中对计算机技术的应用也越来越广泛,这也进一步促进了美术行业的发展
期刊
内容摘要 如今,随着我国经济水平的快速提升,各个领域也都迎来了新的发展契机,但是这也在一定程度上增加了能源的消耗量,而这种现象显然与我国生态环境的可持续发展相悖,导致环境越来越恶劣,在这种情况下,也增加了我国自然灾害的发生率。对此,文章主要对林业造林工程中存在的质量问题与改进措施进行分析,以供参考。  关键词 林业 造林工程 质量 改进措施  1 引言  在生态环境保护中,林业造林工程占据着非常重
期刊
内容摘要 自1949年以来,对于城乡之间的区分,我国始终使用市政的行政地域概念来代替城镇的实体地域概念。但是,伴随着城镇人口数量的增多,在统计工作的实际操作过程中,统计口径也出现了许多变化。基于这种情况,文章就城乡划分及城镇人口统计工作的新思路进行了论述。  关键词 城乡划分 城镇人口 统计 新思路  1 引言  在我国,划分城乡的标准通常与人口统计、社会发展、地区经济及城镇化的相关指数之间有比较
期刊