【摘 要】
:
零指代是汉语中普遍存在的一个现象,在汉英机器翻译、文本摘要以及阅读理解等众多自然语言处理任务中都起着重要作用,目前已成为自然语言处理领域的一个研究热点.提出了篇章视角的汉语零指代表示体系,从服务于篇章分析的角度出发,首先以基本篇章单元为考察对象,判别其是否包含零元素;再根据零元素在基本篇章单元中承担的角色将零元素划分成主干类和修饰类两类;接着以段落对应的篇章修辞结构树为考察指代关系的基本单元,依据先行词与零元素间的位置关系将指代关系分成基本篇章单元内和基本篇章单元间两种,并针对基本篇章单元间的指代关系,根
【机 构】
:
苏州大学 计算机科学与技术学院 自然语言处理实验室,江苏 苏州 215006;江苏省计算机信息处理技术重点实验室,江苏 苏州 215006;苏州大学 计算机科学与技术学院 自然语言处理实验室,江苏 苏
论文部分内容阅读
零指代是汉语中普遍存在的一个现象,在汉英机器翻译、文本摘要以及阅读理解等众多自然语言处理任务中都起着重要作用,目前已成为自然语言处理领域的一个研究热点.提出了篇章视角的汉语零指代表示体系,从服务于篇章分析的角度出发,首先以基本篇章单元为考察对象,判别其是否包含零元素;再根据零元素在基本篇章单元中承担的角色将零元素划分成主干类和修饰类两类;接着以段落对应的篇章修辞结构树为考察指代关系的基本单元,依据先行词与零元素间的位置关系将指代关系分成基本篇章单元内和基本篇章单元间两种,并针对基本篇章单元间的指代关系,根据零元素对应的先行词的状况将指代关系分成实体类、事件类、组合类和其他等4类;最后,基于篇章视角的汉语零指代表示体系,选取汉语树库CTB、连接词驱动的汉语篇章树库CDTB和OntoNotes语料中重叠的325篇文本进行了汉语零指代的标注,构建了服务于篇章分析的汉语零指代语料库.一方面,借助系统检测来说明所提出的表示体系合理有效,构造的语料库质量上乘;另一方面构建了完整的汉语零指代消解基准平台,从可计算的角度验证了所构建的汉语零指代语料库能够为篇章视角的汉语零指代研究提供必要的支撑.
其他文献
针对互联网时代面临的通过人工对海量新闻进行分类较为困难的问题,本文通过贝叶斯、RidgeClassifier和fastText这三种分类器进行新闻文本分类,分析比较了这三种分类器对新闻文本分类的效果.实验结果表明,三种分类器均可以实现新闻文本分类的任务,其中fastText方法在匿名新闻文本分类问题中各方面性能指标最优,本文从算法理论上分析了产生这一差异的原因.
计算机网络技术越先进,病毒就越难制预防.为了增强计算机网络对于病毒防护效果,需要加强数据挖掘的利用.数据挖掘技术是打破传统空间和时间限制的互联网技术,利用数据挖掘技术可以有效的预防计算机网络病毒的攻击.对此,本文分析了数据挖掘技术原理,包括数据库的数据采集、处理和分析等.在计算机中发挥防病毒作用,为构建和谐的运行环境打下坚实的基础.
在我国现代教育发展过程中,高等院校需要对其课程体系和教学模式进行科学改革,软件专业教师在具体落实教育工作时,需要对其相关工作进行综合探究,确保能够合理优化课程体系和教学模式,保证学生能够更为高效地参与课堂学习,强化学生整体素质,推进现代素质教育的进一步发展,本文首先分析其教学模式,然后综合探究创新课程体系和教学模式的具体策略.
“智能+”时代的到来给人们的生活带来了巨大的变化,“智能+”企业层出不穷,新技术不断涌现,急需人工智能相关专业的高端人才.而目前高校相关专业的实践教学内容和模式相对还比较陈旧,这样的现状使得高校毕业生很难适应“智能+”时代的发展,造成高校人才专业能力与“智能+”新技术发展的脱节.本文提出一种在“智能+”时代背景下,以新技术为导向的实践教学改革方法以供探讨研究.本方法主要在实践教学中更加融合人工智能产品和技术的元素,将人工智能时代的新技术贯穿在高校实践教学的各个环节和不同年级学生的学习阶段.对学生分层次进行
作为一种二维的形式化方法,图文法为可视化语言提供了直观而规范的描述手段.然而,大多数图文法形式框架在空间语义处理能力方面有所不足,影响了图文法的表达能力及其实际应用范围.针对现存的问题,构建了一种新型空间图文法形式框架vCGG(virtual-node based coordinate graph grammar).区别于其他空间图文法,vCGG在产生式中通过定义虚结点的概念描述产生式与主图之间的语法结构与空间语义关系,在保留抽象能力的同时,提高了其空间语义配置性能.通过与几种典型空间图文法框架比较,vC
在开源社区中,不同开发人员提交的代码水平参差不齐,需要代码评审检查提交代码质量.决策者是代码评审的关键人物,审核提交代码,发现软件缺陷.代码评审情况会对开源软件质量产生影响,因此需要建立评审过程度量体系,了解代码评审情况,促进提高开源软件项目质量.现有的软件过程度量方法主要考虑提交代码和评审评论活动,缺乏考虑决策活动,难以充分度量人员的评审行为.引入决策者因素,提出了一个开源社区评审过程度量体系,包括评审活动指标和人员分布指标.评审活动指标包含评审次数、评审信息长度、评审代码改动行数以及评审时间.人员分布
二维带形装箱问题是一个经典的NP-hard的组合优化问题,该问题在实际的生活和工业生产中有着广泛的应用.研究该问题,对企业节约成本、节约资源以及提高生产效率有着重要的意义.提出了一个强化学习求解算法.新颖地使用强化学习为启发式算法提供一个初始的装箱序列,有效地改善启发式冷启动的问题.该强化学习模型能进行自我驱动学习,仅使用启发式计算的解决方案的目标值作为奖励信号来优化网络,使网络能学习到更好的装箱序列.使用简化版的指针网络来解码输出装箱序列,该模型由嵌入层、解码器和注意力机制组成.使用Actor-Crit
智能家居赋予家庭设备以智能,受到用户的广泛欢迎.由于用户需求不同,服务提供商采用“触发-动作”编程(TAP)模式以支持用户定制规则.然而,现在TAP编程和智能家居执行引擎中流行的Event-State时序范式极易出错,且难以修改规则和追踪运行错误.对TAP缺陷的原因进行系统分析之后,提出一种编写和修改难度较低、且能够检测规则运行异常的方案,记为SSRules.SSRules允许用户以一种改进的State-State时序范式输入规则,并基于Z3定理证明器将其翻译为Event-State时序范式,且为开源智能
针对粗粒度锁会严重影响并发程序的可伸缩性问题,提出一种面向细粒度锁的自动重构方法.该方法借助访问者模式分析、别名分析、负面效应分析等多种程序分析技术获取临界区代码的读写模式,然后使用下推自动机构建不同锁模式的识别方法,根据识别结果进行代码重构.与以往锁重构方法的不同之处在于,该方法考虑了锁降级模式,使重构适用性更广.基于此方法,在Eclipse JDT框架下,以插件的形式实现了自动重构工具FLock.在实验中,从重构个数、改变的代码行数、重构时间、准确性和重构后程序性能等方面对FLock进行了评估,并与已
随着SOA技术的发展,Web服务被广泛应用,服务数量增长迅速.正确高效地对Web服务进行分类,对于提高服务发现质量、促进服务组合效率非常重要.然而,现有的Web服务分类技术存在描述文本稀疏、未充分考虑属性信息以及结构关系等问题,难以有效提升Web服务分类的精度.针对此问题,提出一种基于GAT2VEC的Web服务分类方法.首先,针对Web服务之间的结构关系和自身的属性信息分别构建出多个相对应的结构关系图和属性二分图,并采用随机游走算法生成Web服务的结构上下文和属性上下文;然后,利用SkipGram模型对联