汉语语体的计量特征在文本聚类中的应用

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：newio

【摘要】

：

提出了将语言计量研究成果应用于文本聚类研究的方法.通过两个50万词的语料样本发现了在现代汉语口语体和书面语体中具有显著分布差异的16个语言结构特征;以其中7个作为文本

【出处】

：

计算机工程与应用

【发表日期】

：

2004年期

【关键词】

：

文本聚类语体特征语言结构汉语口语汉语书面语

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

提出了将语言计量研究成果应用于文本聚类研究的方法.通过两个50万词的语料样本发现了在现代汉语口语体和书面语体中具有显著分布差异的16个语言结构特征;以其中7个作为文本表示特征准确地将实验文本聚类为口语体(相似度89.84%)和书面语体(相似度86.93%)两类.以语言结构的计量特征表示文本的方法加强了聚类/分类研究的可解释性,具有较高的理论和应用价值.以语料库和统计方法进行语体特征计量研究是汉语语体描写研究的重要方法,阐述了其理论基础.

其他文献

基因药的研究与应用进展

基因药物的研究主要针对致病基因的DNA和基因转录本mRNA两大类生物大分子.本文讨论了基因疫苗、反义核酸、肽核酸(PNA)、RNA干涉(RNAi)、等几种新型基因药物,并介绍了它们在

期刊

基因治疗基因疫苗反义核酸PNARNAi

立足实际、发挥优势、加快蒙医蒙药产业化发展步伐

加快蒙医药产业化发展的思路及建设性意见.

期刊

蒙药发展产业化优势

正交设计优化嘎古拉挥发油提取工艺

目的:寻找嘎古拉挥发油的最佳提取工艺条件.方法:通过正交设计对嘎古拉挥发油的提取工艺条件进行了优化.结果:结果表明嘎古拉挥发油的最佳提取工艺条件为:药材加入8倍量水,浸

期刊

蒙药挥发油提取工艺

兴安盟医院抗菌药物使用情况分析

目的:调查分析兴安盟医院抗菌药物使用情况,为临床合理使用抗菌药物提供参考.方法:随机抽查我院2003年4月-6月门诊西药的处方共7464张,统计、分析抗菌药物的处方占处方总数的

期刊

抗菌药物使用分析

蒙成药巴特日七味丸鉴别方法的探析

本文阐述了巴特日七味丸鉴别(2)实验方法的内容.通过实验改进了鉴别方法,使鉴别的实验结果有明显的特征性.

期刊

蒙成药药品标准鞣质诃子

正交设计优化苦参栓成型工艺

目的:为苦参栓寻找最佳成型工艺;方法:采用正交设计优化成型工艺条件,通过统计学分析确定最佳成型工艺条件;结果:苦参栓的最佳成型工艺条件为A1B3C1D2,即药物与基质在40℃的

期刊

苦参栓成型工艺正交设计

微生物法检测乌兰浩特地区动物源性食品的新霉素残留

目的:控制和减少动物源性食品的新霉素残留.方法:微生物法,利用抗生素类药物对微生物的抑制作用,利用抑菌圈与药物浓度的线性关系而做出的定量分析.结果:本次试验从乌兰浩特

期刊

新霉素微生物法动物源性食品残留

老年退化性钙化性心瓣膜30例临床分析

30例老年退化钙性化性心瓣膜病(简称SCVS)的出诊误诊率达到50%,SCVS症状、体征的特殊性,故常延误诊断.提高诊断率的关键是首先想到SCVS的存在,结合临床表现进行必要的超声心

期刊

老年心瓣膜病诊断分析

沈阳油田稀油井清防蜡技术研究与应用

沈阳油田稀油油井目前采用定期热洗进行清蜡,洗井对地层造成污染,降低采油时率,而且洗井费用很大.针对这种情况,研发出适合沈阳油田稀油区块油井防蜡的新型防蜡剂,不但延长了

期刊

洗井污染防蜡荆油井化学防蜡油井免洗沈阳油田

R134a臣卧式螺旋管内流动沸腾换热特性实验研究

对R134a在水平直管和螺旋管内的沸腾换热特性进行了实验研究.在三个不同的蒸发温度(5℃、10℃和20℃),工质R134a的质量流量范围为100～400kg/(m~2·s)和干度范围为0.1～0.8的条件

期刊

工程热物理流动沸腾螺旋管制冷剂R134aEngineering thennophysicsFlow boilingHelically-coiled

汉语语体的计量特征在文本聚类中的应用

其他学术论文