汉语文本按语体分类的研究

来源 :全国第六届计算语言学联合学术会议 | 被引量 : 0次 | 上传用户:huweibo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
有导文本分类是指在给定的分类体系下,通过对训练语料的学习对每个类建立特征向量以表示该类,然后对每一个新的文本自动确定其类别的过程.本文介绍的文本分类的目的不是按专业领域对文本分类,而是按语体对文本分类.这种分类研究对于统计语言模型的训练具有重要意义.本文以汉字的字频向量作为语体类别的表示方法,通过计算类别向量与文本向量的相似度来确定文本的类别.已应用该方法对几种不同语体的小说分类,取得了较好的分类结果.
其他文献
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
会议
本文对我院1998年1月~2002年10月间105例(120条)下肢顺行静脉造影资料进行分析,探讨其诊断价值.对象与方法
目的:探讨低剂量多排螺旋CT扫描对儿童肺结核(PTB)的诊断价值。方法:选择2016年1月~2019年10月确诊的肺结核患儿53例为研究对象,根据常规剂量扫描确定病灶部位,再选取病灶中