【摘 要】
:
该文讲述了CTMiner中文文本挖掘系统.CTMiner系统主要用于对大规模中文文本集合进行主题层次结构的组织、管理和浏览,揭示大量无组织中文文本集合中固有的主题层次关系.该文
论文部分内容阅读
该文讲述了CTMiner中文文本挖掘系统.CTMiner系统主要用于对大规模中文文本集合进行主题层次结构的组织、管理和浏览,揭示大量无组织中文文本集合中固有的主题层次关系.该文提出了三种方法来对大量中文文本进行层次结构的组织和管理.在上有训练样本的情况下,可以采用层次分类的方法.在层次分类方法中,预先定义好的主题类别具有层次关系,主题类别层次结构中的每个内节点处有一个分类器,系统根据各个节点处的样本集合训练出每一个分类器,然后通过这些分类器把大量待分类的文本分到层次结构的主题类别中.在没有训练样本的情况下,可以采用层次聚类方法和层次自组织映射方法.层次聚类方法中采用k-means聚类算法,通过递归地调用k-means算法建立大规模文本集合的主题层次关系.层次自组织映射方法属于神经网络的方法,它把多个自组织映射图组织为层次结构,从而揭示文本集合的主题层次关系.该文还对中文文本的不同特征表示,特征的选取,特征集合的大小,以及文本矢量长度等进行了分析和大量的对比实验,通过实验结果选取优化参数,从而提高系统的性能.
其他文献
随着电子技术、计算机技术、自动控制技术和网络通信技术的发展,社会越来越信息化,传统的楼宇已不能满足人们对绿色、智能、舒适的工作和生活环境的需求,现代智能楼宇成为了
近来互联网飞速发展表现在,越过国境形成巨大的在线形式的新市场的电子商务得到了很大的发展.但是,黑客、Cracker的出现,导致了窃取开放于互联网上各种信息、泄漏用户信息、
该文针对报业信息的特点,设计和建立了一个概念词典,给出概念字典的构造规则,它支撑了从Term到概念的相互映射;设计和建立了一个概念树,对应相应的知识层次分类,并且表明了概
最初人们研究IP网络的QoS是为了解决时延敏感的分布式多媒体应用的传输问题,而近年来Internet的迅速发展和商业化,使服务质量成为阻碍分组交换网络技术发展的关键问题.该文致
随着Internet技术的飞速发展,以Web为中心的计算方式越来越普及。许多基于传统软件体系结构的既存系统需要升级为基于Web的系统,这种升级过程可以称为面向Web的再工程。 由
该文主要介绍了分形图形分布式并行生成平台的实现过程.简单介绍了该平台所生成分形图形的串性算法;而且Linux和PVM都是可以免费得到的成熟的软件,通过建立在Linux系统下的PV
智能计算机辅助教学(ICAI)是当今CAI应用发展的一个主流。人工智能、网络和多媒体技术的飞速发展为人们相互交流、共享资源提供了广阔的空间,不同模型的ICAI软件也随之应运而生
该文对网络安全模型、防火墙技术和入侵检测技术进行可行性分析,对其中的理论、原理和方法进行了深入分析与研究.采用国内外先进的网络设备构架合理的网络体系结构,并对智能
该文对圆弧型双曲拱坝的应力分析及施工工程计算和混凝土浇注的计算机模拟,作了若干理论与应用研究,其中包括:(1)拱坝基本条件及基本体型参数计算;(2)拱冠梁法应力分析及计算
数字电视管理系统的特点是需要管理和控制各种复杂信息以及与许多功能和接口各异的软硬件系统交互.该系统是一个典型的分布式系统,并且需要根据不同用户的要求做灵活配置和改