字符与词汇向量的联合学习模型(摘要)

来源 :第五届海外中国语言学者论坛 | 被引量 : 0次 | 上传用户:wenjun456852
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对中文提出一种既考虑词汇外部上下文信息,同时考虑词汇内部汉字信息的中文词汇表示学习模型。这个模型一方面可以有效利用词汇内部汉字信息,得到更好的词汇表示;另一方面可以得到字向量,可有效解决新词与罕见词的表示问题。与此同时,考虑到中文中字的多义问题,提出了基于位置的、基于聚类的、基于动态聚类的三种多义项的字向量。在词汇相似度计算和类比推理两个任务上进行了实验,验证了该模型的有效性。
其他文献
在汉语教学的过程中发现学术界对汉语韵母的处理存在一些问题.这些问题若不解决将影响到普通话和对外汉语教学的效果.鉴于此,本文对现代汉语单元音韵母和四呼等两方面问题进
《方言》卷三记载古齐方言"散,杀也",但是前人研究中只找到两个文献用例,且全都不正确,不免使人生疑.本文指出,《史记·淮阴侯列传》韩信之语"何所不散"、东周齐国兵器铭文"
会议
知识图谱包含实体和关系的结构化信息.虽然现有的知识图谱已经拥有上百万的实体和上亿的关系,但是它还是远远未完善的.知识图谱完善的目的是通过已有的知识图谱内部的信息在
会议
语言能力研究是当前国际科学和中国语言学事业的迫切任务.自Chomsky提出"语言能力"以来,Hymes、Bachman以及欧洲理事会文化合作教育委员会等都对语言能力理论的发展做出了贡
会议
口语的事件相关电位研究表明语义违反引起N400成分,句法违反引起左前负波和P600成分.这项研究的目的为探讨中国手语的语义和句法加工是否与口语类似.实验设计:30名先天聋人参
微博是目前一种十分流行的分享信息、表达观点的社交网络.在新浪微博的服务中,用户可以给自己标注不同类型的标签,来表示他们的属性和兴趣.这些用户标注的标签在个性化推荐以
会议
汉语中一些词语的意义并非来自于引申,而是来自于误解和误用.本文试对词语意义误解误用产生的原因进行探究.汉语词语意义的误解误用主要有三个方面的原因:语言、心理和文化.
本研究主要考察把英语作为母语的华裔美国学生,在加工汉语词汇的时候,大脑中的英语与汉语如何竞争的问题.相对于英语来说,汉语是华裔美国学生的第二语言,美国学生在加工汉语
会议
信息抽取研究已经从传统的限定类别、限定领域信息抽取任务发展到开放类别、开放领域信息抽取.技术手段也从基于人工标注语料库的统计方法发展为有效地挖掘和集成多源异构网
会议
  诸多研究表明,名词和动词的加工可能会激活大脑中不同的脑区。不论是从形态变化还是从词汇语义的角度来区分名词和动词,都可能将二者的加工脑区分离,特别是动词加工在大脑的
会议