Radical Enhanced Chinese Word Embedding

来源 :第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL 2018) | 被引量 : 0次 | 上传用户:maozi100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  The conventional Chinese word embedding model is similar to the English word embedding model in modeling text,simply uses the Chinese word or character as the minimum processing unit of the text,without using the semantic information about Chinese characters and the radicals in Chinese words.To this end,we proposed a radical enhanced Chinese word embedding in this paper.The model uses conversion and radical escaping mechanisms to extract the intrinsic information in Chinese corpus.Through the improved parallel dual-channel network model on a CBOW-like model,the word information context is used together with the Chinese character radical information context to predict the target word.Therefore,the word vector generated by the model can fully reflect the semantic information contained in the radicals.Compared with other similar models by word analogy and similarity experiments,the results showed that our model has effectively improved the accuracy of word vector expression and the direct relevance of similar words.
其他文献
反问是一种带有强烈情感色彩的表达方式,对其进行自动识别将提升隐式情感分析的整体效率.针对汉语反问句识别问题,本文分析了反问句的句式特点,将反问句的句式结构融入到卷积神级网络的构建中,提出一种融合句式结构的卷积神经网络的反问句识别方法.首先利用置信度大于70%的反问句的特征词、序列模式,对大规模未被标注的微博语料进行初步筛选,获取大量伪反问句.然后通过多个卷积核分别对句子的词向量和反问句的特征进行抽
藏语语义依存分析是以藏语依存句法分析为基础的深层语义研究.本文从词法分析和句法分析等浅层研究出发,结合藏语自身语法结构和语义单位之间的关系特点,首次实现了藏语的语义依存分析.本文在制定了藏语语义依存关系标注规范并设计了藏语语义依存关系特征模板的前提下,采用了感知机进行了藏语语义依存分析模型的训练,经实验本模型在人工标注测试语料上的根准确率、依存弧准确率、依存弧类型准确率及完全准确率等4个指标分别达
为了学习文本的语义表征,之前的研究者主要依赖于复杂的循环神经网络(recurrent neural networks,RNNs)和监督式学习方法.本文中,提出了一种门控联合池化自编码器(gated mean-max AAE),用于学习通用性的文本语义表征.本文的自编码器完全通过多头自注意力机制(multi-head self-attention mechanism)来构建编码器和解码器网络.在编码
特定目标情感分类是一个极具挑战的任务,其目的是确定上下文语境中某些实体所表达的情感.由于目标实体的情感依赖于实体本身以及对上下文的理解,在分类时应该同时考虑句子和目标实体,并且需要将目标实体与上下文语义进行充分地整合.因此,本文提出:句子、目标实体共同编码方法;基于动态注意力DAGRU(Dynamic Attention Gated Recurrent Unit)的特定目标情感分析方法.共同编码是
法律文本中有一种表条件“的”字结构,本文对其英译进行语法标注与统计分析.考察《民法通则》的汉英平行文本,确定“的”字结构的英语对应单位,分析发现,“的”字结构的英语对应单位,状语远多于定语(84.67%>15.33%);限定式远多于非限定式(87.59%>12.41%),限定式中一般现在时占绝对多数(99.17%),非限定式以介词短语为多(64.71%);3.状语引导词远多于定语引导词(86.57
人机交互中最自然、最理想的交流方式为语音,其中主要涉及到了语音合成,即文本转换为语音的技术.随着神经网络理论的不断深入,基于神经网络的语音合成技术越来越引起人们的关注.文章通过分析藏文字结构与拼读规则,融合Sequence to Sequence模型和注意机制,研究了基于神经网络的藏语语音合成技术.实验数据表明,该文方法对藏语语音合成具有良好的性能表现.
语义双关语是幽默、笑话和喜剧等作品的来源之一,在人类写作的发展进程中具有重要的历史地位.由于语义双关语存在歧义难懂的特点,因此难以挖掘语义双关语的潜在语义信息,故目前语义双关语的检测和双关词的定位是自然语言处理任务中的一项困难和挑战.本文在语义双关语的理论基础上,挖掘了一系列的潜在语义特性,并构建了对应每个特性的特征集,用以检测语义双关语;同时从潜在语义特性出发,本文提出了一种基于词向量和同义词融
藏文疑问句的句法分析在藏文问答系统、搜索引擎、信息的抽取和检索等领域有着广泛的应用前景.文章通过分析藏文疑问句的构成特点,对藏文疑问句进行了分类,归纳了各类藏文疑问句的结构特征,在此基础上利用PCFG对藏文疑问句进行了句法分析.经测试,在封测试集上的准确率、召回率和F值分别达97.6、97.3和97.4,在开放测试集上的准确率、召回率和F值分别达96.0、95.4和95.7.
跨语言信息检索指用户以一种语言提问,检索出另一种或几种语言描述的信息资源的检索技术,是信息检索领域重要的研究方向之一.近年来,跨语言词向量为跨语言信息处理提供了良好的表示形式,受到很多学者的关注.该文利用跨语言词向量实现从汉文查询词到蒙古文查询词扩展和映射,并利用该文提出的串联式查询扩展、串联式查询扩展过滤、交叉验证过滤三种查询扩展方法在进行词向量映射时对候选的蒙古文查询词进行筛选和排序,选择符合
文本蕴含是自然语言处理的难点,其形式类型复杂、知识难以概括.早期多利用词汇蕴含和逻辑推理知识识别蕴含,但仅对特定类型的蕴含有效.近年来,利用大规模数据训练深度学习模型的方法在句级蕴含关系识别任务上取得优异性能,但模型不可解释,尤其是无法标定引起蕴含的具体语言片段.本文研究文本蕴含成因形式,归纳为词汇、句法异构、常识三类,并以句法异构蕴含为研究对象.针对上述两个问题,提出句法异构蕴含语块的概念,定义