【摘 要】
:
中文文本分类处理的对象是汉语文本,汉语自然语言复杂灵活,文本中存在近义、多义等多种复杂语义关系,相对于英文文本而言,中文文本的构成特点与特征提取机制部存在特殊性,但现有的
论文部分内容阅读
中文文本分类处理的对象是汉语文本,汉语自然语言复杂灵活,文本中存在近义、多义等多种复杂语义关系,相对于英文文本而言,中文文本的构成特点与特征提取机制部存在特殊性,但现有的分类对于中文文本语义方面的研究仍缺乏完善的机制。因此,基于语义层次对中文文本分类进行研究必将成为中文文本分类的研究趋势。论文针对中文文本语义信息丰富的特点,对预处理过程中的分词、词性标注及特征提取等进行了语义研究。首先分析了中文文本的特点和处理难点及文本分类和预处理的国内外研究现状;然后提出使用语义知识库消除分词过程中的切分歧义的算法,并利用分词的语义标注信息结合词性词典进行词性标注。在特征提取过程中提出利用语义知识库所提供的语义概念进行概念聚类,降低特征项的空间维度。最后,根据所提出的语义处理算法设计了基于语义的分词及词性标注系统,对结果进行实验分析,并验证语义特征提取方法的有效性。实验表明本文所提出的基于语义的中文文本预处理方法能够解决大部分切分歧义问题,并且能够有效提高分词及词性标注性能,降低特征空间维度,从整体上提高分类性能。文本预处理是文本分类的基础环节,对于分类性能具有较大的影响,基于语义对中文文本预处理过程进行研究,对于更好的表示文本,改善文本预处理结果,提高分类的精度和效率,具有重要的研究意义。
其他文献
本文运用文献分析法,以2009—2018年CSSCI收录的新闻传播学领域四大核心期刊所刊发的涉及“三农”传播主题的文章为样本,从发表数量、研究主题、作者学科背景和机构等方面进
互联网的发展不仅给人们的日常生活带来翻天覆地的改变,也给传统的企业运营模式带来巨大冲击。依附于网络的企业“一夜间遍地开花”,其中包括传统企业建设的自己的企业网站,这些
文献所载和传统观点认为秦人始祖是女脩及其子大业,实则两人绝非母子.根据传说内容和女脩、大业活动时代分析,女脩作为赢秦最早的女性始祖出自少昊氏颛顼部族,女脩实为少昊四
随着知识社会的到来,终生学习已不再是个人的美好愿望,而是社会对每个成员的统一要求,老龄人群也不例外。阅读是学习的必要手段,因此关注并满足老龄人群的阅读需求,是社会管理者应
《幼儿园工作规程(试行)》中指出:幼儿每天户外活动时间一般不少于2小时,其中户外体育活动的时间不得少于1小时.但随着目前日益增加的空气污染:日趋严重的空气雾霾;连绵不断
随着竞争情报的概念自20世纪50年代出现以来,关于竞争情报的研究在企业战略管理方面得到广泛应用和深入发展,在市场竞争日趋激烈的环境下,为企业提升核心竞争力提供了可靠的
我校进行"青年教师教学技能的培养与训练"课题研究已历时几年,在上级主管部门的引导下,在课题组全体同志的努力下,取得了可喜成绩。现就研究工作报告如下。
绘本作为一种独特的文学形式,以文本的完美结合、图画的趣味性、主题的哲理性等特点,深受幼儿的喜爱.在对幼儿进行行为规范教育、语言文字训练、表达能力训练等方面,绘本承担
时代的发展日新月异,信息技术的高速发展是21世纪影响力最大的改变,人们生活的各方面都已经离不开信息技术带来的各种便利,它给课堂教学也带来了很大的改变,它可以将各种高科
语音是英语学习的基础,语音教学的好坏直接影响着学生的语音质量,而语音质量又直接影响着学生对英语学习的兴趣.本文从教师和学生两方面分析了目前西部农村小学英语语音教学