一个中文文本自动分类数学模型

来源 :情报学报 | 被引量 : 0次 | 上传用户：dwqxq1234

【摘要】

：

本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型。该模型采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方拟合（ＬｉｎｅａｒＬｅａｓｔＳｑｕａｒｅＦｉｔ，ＬＬＳＦ）技术建立文本分

【作者】

：

曹素青曾伏虎

【机构】

：

山西大学

【出处】

：

情报学报

【发表日期】

：

1999年1期

【关键词】

：

中文文本自动分类字频向量映射函数 automatic Chinese text categorization Chinese character freq

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型。该模型采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方拟合（ＬｉｎｅａｒＬｅａｓｔＳｑｕａｒｅＦｉｔ，ＬＬＳＦ）技术建立文本分类器模型，通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习，实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数，并用该函数对测试文本进行分类。

其他文献

从“两会”看财税改革走向

“两会”不仅仅是我们国家政治生活中的一件大事，而且也是观察未来一段时间政策走向的最佳窗口。今年的“两会”已经胜利闭幕，我们能从“两会”中得到哪些关于财税改革的信息？

期刊

财税改革两会国家政治生活政策走向

探讨我国会计准则与国际会计准则的差异及发展变化

随着我国经济的快速发展,各行各业都发生了显著的变化,会计行业也是如此,具体表现为会计工作人员业务水平和工作效率的不断提高,促进了我国经济稳定,保证了我国的经济发展。

期刊

我国会计准则国际会计准则差异

基于电商数据的产品知识图谱构建研究

【目的】引入产品画像概念,解决现有电商平台上对产品静态信息和动态评论关联上的不足。【方法】将知识图谱作为挖掘、组织、存储、展示产品信息的方法,引入到产品画像的构建

期刊

产品知识图谱实体抽取评价对象抽取属性抽取实体链接

租房时代之怪现状

“居者有其屋”是不少国家与地区发展居屋计划的目标之一，深圳作为一个移民城市，特别是新兴的移民城市，若想完全实现这个目标并不现实。因为移民城市人口流动的频繁，注定了有一部

期刊

租房现状房地产业深圳市

T-Solution:国产CAE 精于勤成于思

T-Solution作为美国ITI、EXA等公司在中国的唯一合作伙伴，旗下主营产品主要分为两大类：一类是专业的CAE应用软件，如专用飞机系统级电磁兼容／雷达／红外隐身软件E—MIND和VIRAF、专

期刊

CAE应用软件国产损伤容限设计红外隐身电磁兼容热平衡分析合作伙伴

汉字概率检索理论及其实现

因特网上信息检索的新问题需要新理论来解决，概率检索理论是其中选择之一。本文在基于英文的概率检索理论基础上，提出了改进的基于汉字的概率检索理论，在实现中又以直接排序代替

期刊

因特网信息检索汉字概率检索计算机网络Internetinformation retrievalsoftwareChinese character

烟草企业财务内部控制存在的问题及改进策略探讨

本文深入分析了烟草企业财务风险管理现状,提出了改善企业财务风险内控环境、建立健全财务内控管理制度和重视内部审计监督的建议措施,以期降低烟草企业财务管理风险,促进烟

期刊

烟草企业财务管理风险管控内部控制问题

搭建行业分析平台实现工程环境仿真

中国企业目前面临的最大挑战是如何由仿制走向自主研制。过去我国的企业走仿制路线．既涉及到知识产权的壁垒，又永远拿不到高端利润．因此我国现在强调要自主创新，要掌握产品开发源

期刊

行业分析环境仿真平台工程中国企业自主研制知识产权自主创新

Z39.50协议应用的比较研究

本文首先介绍近几年来国际上在Z3950方面的研究与应用,然后采用对比研究的方法讨论国外信息工作者和中国信息工作者近年来所完成的工作,最后对我国的信息工作者今后应该在Z39

期刊

Z39.50协议计算机网络信息网络检索比较研究Z39.5 0st andard Computer network protocolLibrary

制造业信息化与区域知识创新战略

强化区域知识创新是新经济形势下提高区域竞争能力的关键.本文以制造业信息化的实施为背景,在分析竞争导向下的区域知识创新需求和战略定位的基础上,探讨制造业信息化的功能

期刊

制造业信息化区域知识知识创新区域竞争力区域经济

一个中文文本自动分类数学模型

其他学术论文