汉语语体的计量特征在文本聚类中的应用

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:newio
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了将语言计量研究成果应用于文本聚类研究的方法.通过两个50万词的语料样本发现了在现代汉语口语体和书面语体中具有显著分布差异的16个语言结构特征;以其中7个作为文本表示特征准确地将实验文本聚类为口语体(相似度89.84%)和书面语体(相似度86.93%)两类.以语言结构的计量特征表示文本的方法加强了聚类/分类研究的可解释性,具有较高的理论和应用价值.以语料库和统计方法进行语体特征计量研究是汉语语体描写研究的重要方法,阐述了其理论基础.
其他文献
基因药物的研究主要针对致病基因的DNA和基因转录本mRNA两大类生物大分子.本文讨论了基因疫苗、反义核酸、肽核酸(PNA)、RNA干涉(RNAi)、等几种新型基因药物,并介绍了它们在
加快蒙医药产业化发展的思路及建设性意见.
目的:寻找嘎古拉挥发油的最佳提取工艺条件.方法:通过正交设计对嘎古拉挥发油的提取工艺条件进行了优化.结果:结果表明嘎古拉挥发油的最佳提取工艺条件为:药材加入8倍量水,浸
目的:调查分析兴安盟医院抗菌药物使用情况,为临床合理使用抗菌药物提供参考.方法:随机抽查我院2003年4月-6月门诊西药的处方共7464张,统计、分析抗菌药物的处方占处方总数的
本文阐述了巴特日七味丸鉴别(2)实验方法的内容.通过实验改进了鉴别方法,使鉴别的实验结果有明显的特征性.
目的:为苦参栓寻找最佳成型工艺;方法:采用正交设计优化成型工艺条件,通过统计学分析确定最佳成型工艺条件;结果:苦参栓的最佳成型工艺条件为A1B3C1D2,即药物与基质在40℃的
目的:控制和减少动物源性食品的新霉素残留.方法:微生物法,利用抗生素类药物对微生物的抑制作用,利用抑菌圈与药物浓度的线性关系而做出的定量分析.结果:本次试验从乌兰浩特
30例老年退化钙性化性心瓣膜病(简称SCVS)的出诊误诊率达到50%,SCVS症状、体征的特殊性,故常延误诊断.提高诊断率的关键是首先想到SCVS的存在,结合临床表现进行必要的超声心
沈阳油田稀油油井目前采用定期热洗进行清蜡,洗井对地层造成污染,降低采油时率,而且洗井费用很大.针对这种情况,研发出适合沈阳油田稀油区块油井防蜡的新型防蜡剂,不但延长了
对R134a在水平直管和螺旋管内的沸腾换热特性进行了实验研究.在三个不同的蒸发温度(5℃、10℃和20℃),工质R134a的质量流量范围为100~400kg/(m~2·s)和干度范围为0.1~0.8的条件