聚类分析在外国语言学研究中的应用

来源 :课程教育研究·学法教法研究 | 被引量 : 0次 | 上传用户:tangweichao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】聚类分析,还可以被称为是数值分类学,这属于一种多元统计的分类技术。该技术主要运用在商业和生物与工程以及人类学,还有社会学等多种领域中。语言学中的研究存在很多分类问题,然而学者们选择定性法分类的非常多,计量手段的分类法非常罕见。鉴于此,本文将对聚类分析在外国语言学研究中的应用进行分析。
  【关键词】聚类分析 外国语言 研究 应用
  【中图分类号】H087 【文献标识码】A 【文章编号】2095-3089(2018)04-0003-01
  现阶段在聚类分析中的新方法非常多,对聚类算法来说,其使用的技术并不一样,在理论背景上彼此交叉和重叠,并不能容易地归类一个比较统一的标准,聚类分析法能够被分为层次聚类方法和基于划分下的聚类方法与图论聚类方法以及密度下与网格基础下的方法等多种。上述方法尽管从不同角度方面多运用的理论方法也不同,然而对存在差异的实际问题来说,聚类分析当中的基本内容一直是人们研究的重点。
  一、聚类方法浅析
  (一)层次聚类方法分析
  就层次聚类算法来说,其主要优点是指,不需要实现知晓用户指定的聚类数目,能够灵活地对不同层次聚类粒度进行控制,同时,还可以比较清晰地对簇之间所具备的层次关系进行表达。然而,层次聚类算法在运用中的缺点也是非常明显的,主要有,层次聚类时,不能追溯已有的簇结构处理;上一层次簇形成之后,一般是不能在之后的执行过程中进行调整的。现阶段,很多层次聚类算法在计算过程中都有一定的复杂度,这一过程中,0是数据集中数据点的数量。计算开销是非常大的,已经是促进层次聚类算法中性能提高的一个瓶颈,导致其不能适用于规模较大的数据集。
  (二)划分聚类方法的分析
  这一聚类方法早已在模式识别和数据挖掘等不同领域有了广泛的应用,截至目前为止,还是多个研究工作中的思想源头。如果目标函数具有可微性,就要对数据集进行初始划分,再将其作为起点,并对样本点的归属进行调整,进而让目标函数实现最优。如果目标函数得到收敛,就能够获得最终的聚类结果。k-means与FCM都是该类算法中比较典型的代表,在现阶段的研究成果包括:密度加权的模糊类聚类算法,以及在混合距离学习下的双指数模糊的均值算法等。其在具体使用过程中的优点主要包括,收敛速度比较快,容易扩展,存在的缺点是指需要知晓事先所指定的聚类数目。除此之外,初始簇的中心选择和噪声数据存在与聚类数目本身的设置都会严重影响聚类结果。
  (三)密度与网格聚类方法的分析
  基于密度与网格之上的聚类方法主要来自于基于密度聚类方法与基于网格聚类方法。其中,密度聚类方法一般主要在数值属性的数据集中进行运用,后者可以在任何属性数据集中进行运用。因为该方法对数据进行处理过程中,都注重使用样本点空间的分布信息,同时,总是经常地结合使用,所以可以归结在一块使用。
  二、国外语言研究中对于聚类分析法的具体应用
  聚类分析法主要在语义和句法型式与认知语言学以及心理语言学,还有计算语言学与社会语言学等多种研究领域当中被应用。聚类分析法在实际中的应用主要是和语料库数据进行结合。主要应用的领域包括以下几点。
  (一)在词汇语义学中的应用
  在语言学的研究中有这样一个假设。如果语言项目语境在分布信息对该语言项目本身的语义和功能特点进行了揭示。语言成分本身的意义即是该语言成分在分布中的条件或者是限制。例如,Firth曾经提出:“观一词之同伴可知一词”;此外,Hanks曾经指出:“动词语义是由其补足语的模式所决定的。”语料库给予了词在分布环境中的信息,例如共现词和其频率。按照语料库所给予的共现特征中的频率信息,该分析方法能够用来较客观和系统地对近义词和反义词进行辩解。聚类分析法应用在词汇语义学当中是非常有必要的,其对于词典的编纂和外语的教学都非常有实用价值。
  (二)在句法型式的研究领域中进行应用
  聚类分析法能够帮助人们对语料库当中存在的句法结构实施聚类,有助于相关人员对经验数据性的句法进行研究。例如,相关人员可以对语料库当中的一個单词进行全部索引行并聚类,对这一单词进行识别和提取,例如,动词的所有句法型式,进而获得对指定单词句法行为进行全局性和系统性地了解和认识。有助于数据驱动句法的研究,并对其词典进行编撰,同时在外语教学中的价值也非常大。
  (三)语言文体的变异研究
  语篇当中会出现很多语言结构的单位在使用中统计的特征。主要有词长和句长与型符类符比以及单现词比例,还有词性比例和句型比例等。从多数研究中可以看出,各种语言的结构特征在不同体裁当中的文本也存在着客观地变异情况。语言风格和文体与体裁都是因为不同语言的结构单位特征所产生的。该频率分布的不同造成分析语篇的风格和文体物质的基础。利用各种特征统计分析文本的思想比较早的是数学家Morgan在19世纪中期的猜想与建议。很多研究人员可以结合该语言的结构单位进行不同风格和文体文本以及语篇的分析。
  (四)语言本身的社会变异和功能变异研究
  语言变异和社会结构之间的关系非常复杂,运用以往的一般研究的手段不能进行处理。在以往的研究方法当中,对于研究变量进行选择和假设建立也是研究人员按照某种理论框架和既定的研究个案与个人在研究领域中形成的经验和灵感所展开的。这是截至目前位置一直被延用的一种研究方法。尽管人们不能否认该研究方法是有一定意义的,然而还是必须承认,以往的研究方式基本也是瞎子摸象,存在很大的盲目性,加之,在某些时候属于东一榔头西一棒子的模式,没有系统性地研究。按照个人在这一领域中的经验或者是出现的灵感所提出的语言研究假设不可避免地存在很大地盲目性,由于和大规模语言数据的对比,个人在经验和灵感来源上都非常有限。将聚类分析法运用在其中,能够更好地克服该局限的出现。
  三、结束语
  总而言之,在未来的发展中,对于大规模语言数据的进行依赖的程度会也来越大,在此基础上的数据挖掘也逐渐增多。规模较大的语言数据在人工和肉眼下是不能被有效处理的。这时,聚类分析等多种数据挖掘的方法是人们重要的工具。外语研究人员要加强对包括聚类分析在内的数据挖掘技术进行研究,保障研究与时俱进。
  参考文献:
  [1]唐成成.聚类分析在高校课堂教学质量评价中的应用[D].重庆师范大学,2017.
  [2]杨昱梅,李婧.聚类分析算法在大学生心理健康分析中的应用研究[J].中国教育学刊,2015(S1):27-29.
  [3]王骏,王士同,邓赵红.聚类分析研究中的若干问题[J].控制与决策,2012,27(03):321-328.
其他文献
【摘 要】机电工程与人们的生活息息相关,如何提高机电工程技术和保证工程质量是一个比较重要的问题。  【关键词】机电工程;施工技术;质量控制  工程施工过程对一个工程队伍来说,是十分巨大的考验。施工不仅涉及技术问题,还有管理问题,只有在技术和管理都到位的情况下,才能保证工程的顺利进行,同时才能保证施工质量。在建筑物中进行的机电安装工程中包括的工程较多,例如给排水工程、弱电工程、空调通风工程等等。这些
含有大量蛇纹石的低品位镍矿石一直是难以处理的。Mt Keith选矿厂在投产前5年也不例外,选矿厂平均镍的回收率刚好60%。在本文中确定了影响选矿指标的几个因素,提出了可以大幅度
结合云南民族高校艺体类学生的生源特点、教学现状和存在的问题,分析任务型教学法“以学生为中心”,强调在真实的情境中学习和掌握语言的教学模式,从而提升艺体类学生语言综合运用能力,打破艺体类学生大学英语教、学两难的困境。  任务型教学法民族高校艺体类学生大学英语云南地处西南边陲,交通相对闭塞,文化发展落后,英语教育处于较低水平,尤其是作为特长生的艺术和体育专业的学生。随着近年来大学英语改革步伐的加快,高
目前已有很多种类型的设备用于机械解离和清洗被污染的土壤。特别是在一些洗矿筒中,能在清洗土壤的同一套设备中进行重选。本文介绍了一种获得专利的新型的清洗和圆筒分选机的
三硫代碳酸盐(TTC)在基质表面上的吸附与基质表面的电位有关。在本工作中证实了TTC起到了硫醇或硫醇盐在表面上吸附的中间物的作用。而二硫代碳酸盐(黄药)仅在有阳极电流存在时才
近年来,广西地质勘查总院对扶绥县境内铝土矿资源进行普查时发现,该县山圩镇、东门镇、柳桥镇、东罗镇一带有5个规模较大的铝土矿矿体,预测资源储量达1.2亿t。
本文中研究了戊基钾黄药(KAX)与十二胺(DDA)混合捕收剂中的KAX与DDA重量比对菱锌矿的可浮性和捕收剂在矿物表面上的吸附量的影响。无论单用KAX还是单用DDA时,菱锌矿的浮选回
国家八部委颁布的国经贸企改【2002】859号文件《关于国有大中型企业主辅分离辅业改制分流安置富余人员的实施方法》(以下简称国家859号文件),将国有中小企业改革的成功实践引入
【摘要】在政治、经济、文化高速发展的今天,在我国,英语作为国际交往的工具,所起的作用越显重要。为此,新的英语教学大纲明确提出,英语教学“应着重培养学生运用语言进行交际的能力”,要求英语教师要注重学生能力的培养,通过基本训练的途径快速提高学生在英语交际中的能力。其中自学能力、听说能力、阅读能力和参与能力是促进学生听、说、读、写综合能力形成的重要因素。  【关键词】英语教学 学生 能力培养  【中图分
早先报道说在有一价盐存在的条件下,可采用阳离子浮选的方法分选钠长石(NaAlSi3O8)和钾长石(KAlSi3O8)是可能的。然而,与这一结果相反,一系列的钾长石矿物的可浮性表明,每种微斜长石