现代汉语虚词用法知识库介绍

来源 :中国应用语言学会 | 被引量 : 0次 | 上传用户:h9501oney
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实词是具有实在意义的词,例如名词、动词、形容词等,它们承载句子中主要语义的描述,也称实义词;相对实词而言,虚词的意义比较空灵且用法多变,例如介词、连词、助词等,它们主要承担句子中语法特征以及相关实词间语义关系的描述,也称功能词.与其他语言类似,在汉语中,词也有虚实之分.现代汉语虚词在中文信息处理中起着重要作用。基于这样的认识,构建了包括现代汉语虚词用法词典、现代汉语虚词用法规则库以及现代汉语虚词用法标注语料库“三位一体”的现代汉语虚词用法知识库,同时也对虚词用法的自动识别算法进行了研究,并实现了功能丰富的知识库辅助构建工具包。下一步将对现代汉语虚词用法知识库的应用进行进一步的探讨,为了实现在机器翻译系统中的应用,还要增加相应的翻译信息;同时将针对词典中词义、用法划分的颗粒度,规则库中规则的精准描述,以及语料库中的标注一致性等问题进行进一步的推敲,构建准确完备的现代汉语虚词用法知识库,为中文文本内容的深度处理和自动理解提供可靠的数据基础。
其他文献
最大熵模型能够充分利用多个任意的特征。本文中提出基于最大熵模型的维吾尔语词性标注方法。本文中主要的工作是选出对兼类词和未登录词词性标注有较大贡献的特征。作为黏着语言,维吾尔语单词为表达语法功能而附加词缀。本文中,除了前后单词的词性和词形之外,把前后单词的最后词缀作为特征使用。实验结果表明,前后单词的最后词缀对兼类词和未登录词的词性标注有着明显的提高,模型准确率到达96.58%。
本文对维吾尔语名词形态结构进行研究,并构造了名词有限状态自动机(FSM).然后针对自动机的缺陷使用最大熵模型给有限状态自动机加入了歧义词缀识别能力,最后根据维吾尔语的元音和谐特点,建立了基于规则和信道噪声模型的元音和谐处理方法。本文,有机结合以上三种方法构造出了基于规则和统计的名词词干提取方法.为了有效利用现有的资源,提高系统的性能,把基于词典的词干提取方法与规则和统计相结合的名词词干提取方法的结
维吾尔语语音合成研究方面,多音词的研究甚少是影响进一步提高合成性能的重要原因之一。本文深入研究维吾尔语中的多音词现象,从包括13,607,507个单词的708,322个句子文本中统计出了多音词在维吾尔语中的出现频率和不同读音的使用频率,通过分析统计结果并根据多音词本身的特征对它们进行分类。从而为进一步研究维吾尔语多音词自动注音方法打好了基础。
本文通过研究国内外相关的句法树库标注体系建设理论,再结合维吾尔语自身的特点,制定了维吾尔语句法树库标注体系规范,该标注体系包含两个标注集:功能语块标记集及短语标注标记集,在此基础上,采用了人工标注与自动标注相结合的方式完成了3000句规模的维吾尔语句法树库,为今后维吾尔句法树库研究的不断深入奠定了一定的基础。
电脑技术带来网际网路上大量且公开的数位资源,成为现代语言分析的丰富材料。网站语料的收集仅为第一步,后绩需根据形式特徵进行语料的整理、分类、撷取与标记等工作。与形式特徵相较之下,语言的功能更复杂多变,至今文献尚未当试语料库在此层面的应用。因此本文利用电脑近似人工智慧的技术分析台湾网路上的交章,将其文字转换为易于理解与分析的结构化段落,借此大幅减少人工标记的时间与人力,提升研究的广度与精度。此语用语料
本文研究从X光录像提取声道形状,并推导声道传递特性。首先根据汉语普通话的X光录像,设计了一种自动提取清晰边缘结合手工标记模糊边缘的方法,来提取声道边缘。并采用Mokhtari(1998)的方法,推导出汉语普通话主要元音的共振峰频率和带宽,计算结果与实际语音和前人的结果做了比较,减小了误差。为验证结果的有效性,根据计算出来的共振峰数据进行了语音参数合成,结果表明合成语音符合相应的元音音色。
@@ A well-known constraint on the mapping between referentiality and word order in Chinese is the prohibition of non-specific indefinite nominals from the subject position of a sentence (Chao 1968, Li
会议
@@ Along the vP-shell analysis by Larson (1988), it has been argued recently in the literature that the lexical category P, just like the lexical category V, also entails an extended projection (an FP
会议
会议
本文探讨了世界语言的时类型、时与体的编码类型及其倾向性与认知理据。跨语言时范畴在逻辑上存在单分时、二分时、三分时以及多分时四种类型,其中单分时尚需语料支持,其它时类型都在世界语言中得到验证。英语和汉语均是非典型的二分时和三分时,但都有过去、现在和将来时的表达手段。
会议