【摘 要】
:
随着互联网应用的快速发展,网络用语的使用越来越普遍,网络新词层出不穷。网络文本中大量的网络用语,对基于自然语言处理的情感分析、产品推荐、自助问答系统等应用带来了一
【机 构】
:
郑州大学信息工程学院,河南省郑州市450001
【出 处】
:
第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD
论文部分内容阅读
随着互联网应用的快速发展,网络用语的使用越来越普遍,网络新词层出不穷。网络文本中大量的网络用语,对基于自然语言处理的情感分析、产品推荐、自助问答系统等应用带来了一定的挑战,而收集并构建网络用语词典及相关语料则是解决此类问题的突破点。本文以微博语料为出发点,综合多类网络资源,收集并整理了较为全面的网络用语词典及相关语料。同时,对网络用语词典构建中遇到的问题进行了分析和总结,并对其潜在应用进行了初步的探讨。
其他文献
经过对大量维吾尔文网站的调查与分析,本文从多语种混合网页中针对维吾尔文网页识别进行了研究.这对维吾尔语信息处理工作起着关键的作用.首先本文探讨了维吾尔文不规范网
AMR是国际上一种新的句子抽象语义表示方法,有着接近于中间语言的表示能力,其研发者已经建立了英文《小王子》等AMR语料库.AMR与以往的句法语义表示方法的最大不同在于两个
本文旨在以HowNet为例,探讨在表示学习模型中引入人工知识库的必要性和有效性。目前词向量多是通过构造神经网络模型,在大规模语料库上无监督训练得到,但这种框架面临两个困
随着互联网整体水平的提高,大量基于维吾尔语的网络信息不断建立,引起了对不同领域的信息进行情感倾向性分析的迫切需要.本文考虑到维吾尔文没有足够的情感训练语料和完整
迁移学习在一定程度上减轻了目标域的数据稀疏问题对泛化能力的影响,然而泛化能力的提高仍然受到负迁移等问题的影响。为了解决负迁移问题,本文提出使用源域结构的文本语
In order to explore a practical way of improving machine translation(MT)quality,the error types and distribution of MT results have to be analyzed first.Thi
阅读理解的研究是目前NLP领域的一个研究热点.阅读理解中好的复杂问题解答策略不仅要进行答案句的抽取,还要对答案句进行融合、生成相应的答案,但是目前的研究大多集中在前
框架识别是语义角色标注的基本任务,它是根据目标词激起的语义场景,为其分配一个合适的语义框架.目前框架识别的研究主要是基于统计机器学习方法,把它看作多分类问题,框架识
本文尝试从文本语义离散度的角度去提升自动作文评分的效果,提出了两种文本语义离散度的表示方法,并给出了数学化的计算公式.基于现有的LDA模型、段落向量、词向量等具体方
口语语料库的建设是口语研究的基础工作,本文选择具有代表性的交谈式谈话节目《锵锵三人行》和对谈式谈话节目《鲁豫有约》作为语料,建立了一个小型的谈话节目语料库,并构建