基于文本语义离散度的自动作文评分关键技术研究

来源 :第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD | 被引量 : 0次 | 上传用户:l1113106a1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文尝试从文本语义离散度的角度去提升自动作文评分的效果,提出了两种文本语义离散度的表示方法,并给出了数学化的计算公式.基于现有的LDA模型、段落向量、词向量等具体方法,提取出四种表征文本语义离散度的实例,应用于自动作文评分.本文从统计学角度将文本语义离散度向量化,从去中心化的角度将文本语义离散度矩阵化,并使用多元线性回归、卷积神经网络和循环神经网络三种方法进行对比实验.实验结果表明:在50篇作文的验证集上,在加入文本语义离散度特征后,预测分数与真实分数之间均方根误差最大降低10.99%,皮尔逊相关系数最高提升2.7倍.该表示方法通用性强,没有语种限制,可以扩展到任何语言.
其他文献
  A great number of clinicians in mainland China are under increasing pressure to publish their research results on international journals,and they urgently n
会议
  高考阅读理解选择题是基于背景材料,通过对材料的“理解”从多个选项中选出最佳选项.由于提供的背景材料相对较短且关键信息极具隐藏性,答案可能无法在背景材料中直接找到.
会议
  经过对大量维吾尔文网站的调查与分析,本文从多语种混合网页中针对维吾尔文网页识别进行了研究.这对维吾尔语信息处理工作起着关键的作用.首先本文探讨了维吾尔文不规范网
会议
  AMR是国际上一种新的句子抽象语义表示方法,有着接近于中间语言的表示能力,其研发者已经建立了英文《小王子》等AMR语料库.AMR与以往的句法语义表示方法的最大不同在于两个
会议
  本文旨在以HowNet为例,探讨在表示学习模型中引入人工知识库的必要性和有效性。目前词向量多是通过构造神经网络模型,在大规模语料库上无监督训练得到,但这种框架面临两个困
会议
  随着互联网整体水平的提高,大量基于维吾尔语的网络信息不断建立,引起了对不同领域的信息进行情感倾向性分析的迫切需要.本文考虑到维吾尔文没有足够的情感训练语料和完整
会议
  迁移学习在一定程度上减轻了目标域的数据稀疏问题对泛化能力的影响,然而泛化能力的提高仍然受到负迁移等问题的影响。为了解决负迁移问题,本文提出使用源域结构的文本语
会议
  In order to explore a practical way of improving machine translation(MT)quality,the error types and distribution of MT results have to be analyzed first.Thi
会议
  阅读理解的研究是目前NLP领域的一个研究热点.阅读理解中好的复杂问题解答策略不仅要进行答案句的抽取,还要对答案句进行融合、生成相应的答案,但是目前的研究大多集中在前
会议
  框架识别是语义角色标注的基本任务,它是根据目标词激起的语义场景,为其分配一个合适的语义框架.目前框架识别的研究主要是基于统计机器学习方法,把它看作多分类问题,框架识
会议