基于机器学习算法的Web文本挖掘应用研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:papalong2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文从热点信息抽取、Web文本分类、Web文本聚类三方面对机器学习算法在Web文本信息挖掘中的应用与研究进行了深入地分析:1、实现热点信息抽取系统时,提出了一种名为热点算法基础矩阵(HABM)的技术,其根据对比某单一词条在一段历史时期内的词频与目前的词频,判断该词条是否为热门词汇。拥有一定数量热门词汇的文章便成为热门文章被抽取出来。2、Web文本分类系统依据支持向量机(SVM)技术,对LibSVM工具进行二次开发来实现多类分类。鉴于此工具无法直接处理文字信息,我们将文字信息转换为TF-IDF空间向量模型后再做运算。另外还对LibSVM添加了杂质分离的功能。3、Web文本聚类系统采用了改进版的K-Means聚类算法,包括重新设计了聚类初始中心点的选择算法、添加了分块处理数据的能力、新增语料杂质的分离等功能,使得算法在时间和空间上到达到处理大规模数据的要求。课题实现了一系列的优化技术,包括磁盘散列文件、对象串行化、中文分词、线程调度等。课题还采用了国际上通用的准确率-召回率(P-R)评测方法,用于评测最终挖掘结果的好坏。经过一系列的实验证实,三个系统均已达到实用目的,并有着令人满意的挖掘结果。
其他文献
自从Diffie和Hellman提出数字签名的概念以来,数字签名技术得到了广泛而深入的研究。除了对传统意义上的数字签名技术进行研究以外,研究者们还衍生出了盲签名、门限签名、代
随着我国高校人事制度改革的不断深入和信息现代化管理程度的日渐提高,高校人事信息由原来的相对单一的本体形态形成了具有立体空间的信息集合,如何对人事管理信息系统中的数
随着多媒体技术和无线通信技术的发展与普及,人们对图像的需求进一步加大,而图像数据一般都较大,这就为目前有限的信道传输带宽和存储空间带来了挑战,对图像数据进行压缩是解
随着网络技术的飞速发展,信息保密性和网络安全性变得越来越重要。入侵检测系统能够检测出各种形式的入侵行为,作为一种主动的信息安全保障措施,有效地弥补了传统安全防护技
由于大规模爆炸性无线应用需求的激增和移动流量的庞大增长,给原本很拥挤的无线频谱造成很大压力,导致无线频谱成为越来越紧缺的资源。为了解决在频谱匮乏情况下授权频谱利用
本文采用针对数据链路层的安全协议L2TP作为无线局域网安全技术的重要补充。L2TP是目前适用于Internet通信的最有效的一种网络安全技术,利用它所建立的通道具有更好的安全性
学位
IB理论起源于著名的香农率失真理论,它通过定义变量X的相关变量Y,推导出一个合理的失真度量函数,从而有效地解决了率失真理论存在的失真函数难以确定的问题,避免了失真度量函
无线Ad hoc网络是一种没有固定基础设施支持的移动网络,具有多跳路由、无中心、自组织、动态拓扑等特点。这些特点造成无线Ad hoc网络中丢包的原因多样化,而上层协议在对丢包
网络通信环境的开放性和不可靠性容易引发通信故障和安全问题,甚至给网络通信带来灾难性的后果。怎样防止安全问题的发生,以及安全问题发生后,怎样保证系统继续提供正常的服