基于修正SVM-KNN组合算法的汉语专有名词自动抽取

来源 :情报学报 | 被引量 : 0次 | 上传用户:luochaojie123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专有名词的自动抽取是文本挖掘、信息检索和机器翻译等领域的关键技术。本文研究了组合SVM和KNN两种分类器进行汉语专有名词自动抽取的方法。对样本在空间的不同分布使用不同的分类方法,当测试样本与SVM最优超平面的距离大于给定的阈值时使用SVM分类,否则使用KNN;在实际训练语料中,常常是负类样本数远多于正类样本数,而传统KNN方法对不平衡训练集存在敏感性,所以提出了用归一化的思想对传统的KNN方法进行修正。实验表明,用SVM与修正的KNN组合算法进行汉语专有名词抽取比单一的SVM方法以及原始的SVM-KNN方
其他文献
<正>随着数字出版业的快速发展,数字版权保护受到业界广泛的关注,数字版权保护技术也成为数字内容交易和传播的重要技术。版权与保护历来如影相随,传统出版如此,数字出版也不
引文分析是科技情报分析的一种重要方法和技术,特别是建立在共耦合和共被引基础上的引文聚类分析逐渐发展成为科技情报分析中最活跃的研究领域之一。引文聚类分析形成一系列
2020年7月10日,中国石油石油化工研究院与山东裕龙石化有限公司正式签订丁戊橡胶、集成橡胶技术许可合同。丁戊橡胶是丁二烯与异戊二烯的共聚橡胶,是我国尚未实现产业化的合
事件检测与描述(Event Detection and Characterization,EDC)自2005年作为自动内容抽取(Automatic ContentExtraction,ACE)评测的一个重要子任务出现以来,中文事件的标注、检测与
目前,生物医学文献的数量正以爆炸性的速度增长,这些文献中隐含着大量有用的信息,挖掘这些文献可以形成医学假设。然而,传统的基于简单共现的方法会产生大量的目标词,从而导致准确
对双语术语抽取技术中的一项重要分支:基于可比语料库的双语术语抽取技术进行了综述分析。当前研究者采用的方法依据是“上下文相似”理论,即两个在源语言共现的词,对应到目标语
2003年对某校女职工进行了包括常规体检、肝功、血脂、ECG、B超以及X线检查等体检,对已婚妇女进行了妇科常规检查和宫颈涂片检查,现将血脂检验结果总结分析如下:
随着生猪饲养业的不断发展,在带动畜牧业经济发展、为农民增收的同时,也加大了疫病的发生机率,猪传染性胃肠炎(TGE)就是在冬春季节易发生的传染性疾病,是由传染性胃肠炎病毒(TGE
观念是语言文化学的单位,与文化紧密相连。关键观念的分析是研究民族语言世界图景的有效方法之一。本论文的研究对象——“金钱”观念处于俄罗斯语言文化观念的核心位置。对