【摘 要】
:
如何使用文本聚类等数据挖掘技术有效地分析和利用这些海量文本数据,已经经受到了研究人员越来越多的关注。目前,聚类算法主要包括基于划分的方法、基于层次的方法、基于密度的方法、基于模型的方法、基于网格的方法、模糊聚类方法等k-means是最常用的聚类算法之一,但其对初始聚类中心敏感.现有的改进算法都关注于如何在原始的数据集中寻找更好的初始聚类中心,但在文本聚类中,原始文本集中单个文本的类别代表性较弱,不
【出 处】
:
第八届中国可信计算与信息安全学术会议
论文部分内容阅读
如何使用文本聚类等数据挖掘技术有效地分析和利用这些海量文本数据,已经经受到了研究人员越来越多的关注。目前,聚类算法主要包括基于划分的方法、基于层次的方法、基于密度的方法、基于模型的方法、基于网格的方法、模糊聚类方法等k-means是最常用的聚类算法之一,但其对初始聚类中心敏感.现有的改进算法都关注于如何在原始的数据集中寻找更好的初始聚类中心,但在文本聚类中,原始文本集中单个文本的类别代表性较弱,不适合选为聚类中心.本文提出了基于特征关联度的初始聚类中心选择算法,从整个文本集的特征词集合中,选取关联度大的特征词构造新的文本集,并在该文本集内通过文本合并等操作得到类别代表性较强的初始聚类中心候选集,再从中选取最优的初始中心.实验表明,该算法选出的初始中心类别代表性更强,且在5个实验数据集的多数聚类结果中,F-score值都在90%以上,熵小于0.5,明显优于Mahout提供的k-means算法.相比该算法,本文提出的基于特征关联度的K-means初始聚类中心优化算法可选出高质量的初始聚类中心,从而得到更好的聚类结果.
其他文献
As Cloud Computing is one of the hot and trending technologies.A large amount of sensitive information is increasingly centralized into the cloud.To preserve the datas privacy,sensitive data has to be
The anomaly detection as a kind of intrusion detection way is good at detecting the unknown attacks or new attacks,and it has attracted much attention during recent years.A new hybrid intrusion detect
Attribute based encryption enables data owners to share their information by specifying access control policies while outsourcing their encrypted data to the cloud.However,there are no efficient searc
为保障云环境中虚拟机应用的安全性与可用性,本文提出一种能够支持多种虚拟化技术的进程非代理监控方法.利用该方法设计一个非代理的进程主动监控框架.本框架将进程监控点设在虚拟机监视器中,而不在其中安装任何代理.该框架可以支持VMware、Xen、KVM三种虚拟化技术,实现了对客户操作系统(Guest OS)的隐藏进程检测和进程负载监控保证虚拟机安全可靠地运行.对于隐藏进程检测,从被监控虚拟机外部获取活动
随着互联网的快速发展,网络舆情分析研究变得越来越重要.其中聚类是网络舆情分析中的一个非常重要的方法.传统的聚类算法都是基于词语来进行聚类,忽略了文本中可能隐含的信息.本文将TF-IDF和LDA主题模型分别计算的文本相似度进行线性结合来计算文本之间的相似度,从而进行更准确的聚类分析.在构建LDA主题模型时,通过Gibbs抽样来进行参数估计,通过贝叶斯统计的标准方法进行最优主题数的确定.在仿真实验中,
随着分布式系统并发性和交互性的不断增加,其可靠性变得难以保证,而对其行为进行建模、分析与检测是解决这一问题的重要手段.本文引入进程代数对分布式系统的行为建模,提出一种行为分析与检测方法.该方法通过分析二进制码获得系统的控制流程图并将其转换为进程表达式;通过消除表达式不确定性、添加并发操作以及约简归并等方式对表达式进行重写;依据并发规则消除进程表达式中的并发算子,建立分布式系统的行为检测模型,并给出
信息时代,公民更多的参与到网络媒体中,产生出大量舆论,部分舆论需要进行检测、监控,以辅助相关部门决策,发扬积极舆论,引导消极舆论.面向网络舆情分析领域的应用,本文研究了系统聚类、String Kernels、K最近邻算法、SVM算法以及主题模型等五种聚类算法,以网络舆情数据为数据对象集,以R语言环境中为实验工具,对五种聚类算法进行了全面的对比研究,同时进行了仿真实验,比较了这五种算法在网络舆情文本
本文的基本思路是将解决RFID系统的安全问题分别划分到通信层和应用层,在通信层增加适量的认证协议,保证标签的基本信息不被泄露,防止克隆标签,在应用层再根据具体的应用环境设计其他的安全和隐私协议,基于此,本文提出了一种防冲突的RFID群认证协议(Group tags identification and authentication protocol,GIA),该协议从通信层来解决标签识别和安全与隐
With the capabilities of hardware resources increasing while prices also continuing to decline,virtual machine technologies have become more and more popular in industrial and academic areas to utiliz
地理围栏技术广泛应用于推荐系统、广告推送等服务中,存在着严重的位置隐私泄露风险.针对地理围栏服务中的触发查询问题,设计了LBS隐私保护模型.该模型基于安全三方计算理论,遵循位置模糊和位置k-匿名的理念,达到了身份不可关联和位置不可追踪的目标.借鉴计算几何方法解决了触发查询场景下的位置匿名隐藏问题,利用密码学原理实现用户身份秘密认证.理论分析了模型的安全性,从隐私保护角度来看,攻击者没有从LBS系统