【摘 要】
:
口语语料库的建设是口语研究的基础工作,本文选择具有代表性的交谈式谈话节目《锵锵三人行》和对谈式谈话节目《鲁豫有约》作为语料,建立了一个小型的谈话节目语料库,并构建
【出 处】
:
第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD
论文部分内容阅读
口语语料库的建设是口语研究的基础工作,本文选择具有代表性的交谈式谈话节目《锵锵三人行》和对谈式谈话节目《鲁豫有约》作为语料,建立了一个小型的谈话节目语料库,并构建了包含5大类16小类的会话结构标注体系,对语料进行了会话结构的标注。统计得到打断结构294例,插入结构130例,重复结构92例,问答结构646/561例,阻碍-修正结构58/21例,反映了会话结构在数量上的不均衡分布,节目的形式、性质以及交际任务是会话结构分布的主要影响因素。此外,会话结构组合具有模式性,本文通过bigram对其组合情况进行了分析,发现语料中高频的二元组合是问答毗邻对,此外有大量的非毗邻性组合,包括结构之间的嵌套组合、交叉性组合和自由组合。
其他文献
高考阅读理解选择题是基于背景材料,通过对材料的“理解”从多个选项中选出最佳选项.由于提供的背景材料相对较短且关键信息极具隐藏性,答案可能无法在背景材料中直接找到.
经过对大量维吾尔文网站的调查与分析,本文从多语种混合网页中针对维吾尔文网页识别进行了研究.这对维吾尔语信息处理工作起着关键的作用.首先本文探讨了维吾尔文不规范网
AMR是国际上一种新的句子抽象语义表示方法,有着接近于中间语言的表示能力,其研发者已经建立了英文《小王子》等AMR语料库.AMR与以往的句法语义表示方法的最大不同在于两个
本文旨在以HowNet为例,探讨在表示学习模型中引入人工知识库的必要性和有效性。目前词向量多是通过构造神经网络模型,在大规模语料库上无监督训练得到,但这种框架面临两个困
随着互联网整体水平的提高,大量基于维吾尔语的网络信息不断建立,引起了对不同领域的信息进行情感倾向性分析的迫切需要.本文考虑到维吾尔文没有足够的情感训练语料和完整
迁移学习在一定程度上减轻了目标域的数据稀疏问题对泛化能力的影响,然而泛化能力的提高仍然受到负迁移等问题的影响。为了解决负迁移问题,本文提出使用源域结构的文本语
In order to explore a practical way of improving machine translation(MT)quality,the error types and distribution of MT results have to be analyzed first.Thi
阅读理解的研究是目前NLP领域的一个研究热点.阅读理解中好的复杂问题解答策略不仅要进行答案句的抽取,还要对答案句进行融合、生成相应的答案,但是目前的研究大多集中在前
框架识别是语义角色标注的基本任务,它是根据目标词激起的语义场景,为其分配一个合适的语义框架.目前框架识别的研究主要是基于统计机器学习方法,把它看作多分类问题,框架识
本文尝试从文本语义离散度的角度去提升自动作文评分的效果,提出了两种文本语义离散度的表示方法,并给出了数学化的计算公式.基于现有的LDA模型、段落向量、词向量等具体方