基于特征关联度的K-means初始聚类中心优化算法

来源 :第八届中国可信计算与信息安全学术会议 | 被引量 : 0次 | 上传用户：qncypt

【摘要】

：

【出处】

：

第八届中国可信计算与信息安全学术会议

【发表日期】

：

2014年10期

【关键词】

：

数据挖掘初始聚类中心 K-均值聚类特征关联度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

如何使用文本聚类等数据挖掘技术有效地分析和利用这些海量文本数据，已经经受到了研究人员越来越多的关注。目前，聚类算法主要包括基于划分的方法、基于层次的方法、基于密度的方法、基于模型的方法、基于网格的方法、模糊聚类方法等k-means是最常用的聚类算法之一,但其对初始聚类中心敏感.现有的改进算法都关注于如何在原始的数据集中寻找更好的初始聚类中心,但在文本聚类中,原始文本集中单个文本的类别代表性较弱,不适合选为聚类中心.本文提出了基于特征关联度的初始聚类中心选择算法,从整个文本集的特征词集合中,选取关联度大的特征词构造新的文本集,并在该文本集内通过文本合并等操作得到类别代表性较强的初始聚类中心候选集,再从中选取最优的初始中心.实验表明,该算法选出的初始中心类别代表性更强,且在5个实验数据集的多数聚类结果中,F-score值都在90％以上,熵小于0.5,明显优于Mahout提供的k-means算法.相比该算法,本文提出的基于特征关联度的K-means初始聚类中心优化算法可选出高质量的初始聚类中心,从而得到更好的聚类结果.

其他文献

Multi-party Identity-based Symmetric Privacy-preserving Matching with Cloud Storage

As Cloud Computing is one of the hot and trending technologies.A large amount of sensitive information is increasingly centralized into the cloud.To preserve the datas privacy,sensitive data has to be

会议

cloud computingsymmetric privacy-preserving matchingidentity-based re-encrypti

A Hybrid Anomaly Intrusion Detection Model Based on GAFCM-SVM

The anomaly detection as a kind of intrusion detection way is good at detecting the unknown attacks or new attacks,and it has attracted much attention during recent years.A new hybrid intrusion detect

会议

fuzzy c-means clustersupport vector machinemembership functionanomaly intrusi

Deterministic Attributed Based Encryption

Attribute based encryption enables data owners to share their information by specifying access control policies while outsourcing their encrypted data to the cloud.However,there are no efficient searc

会议

attribute based encryptiondeterministic encryptionauxiliary inputs

支持多种虚拟化技术的进程非代理监控方法

为保障云环境中虚拟机应用的安全性与可用性,本文提出一种能够支持多种虚拟化技术的进程非代理监控方法.利用该方法设计一个非代理的进程主动监控框架.本框架将进程监控点设在虚拟机监视器中,而不在其中安装任何代理.该框架可以支持VMware、Xen、KVM三种虚拟化技术,实现了对客户操作系统(Guest OS)的隐藏进程检测和进程负载监控保证虚拟机安全可靠地运行.对于隐藏进程检测,从被监控虚拟机外部获取活动

会议

虚拟机监视器进程监控云环境

基于LDA的文本聚类在网络舆情分析中的应用研究

随着互联网的快速发展,网络舆情分析研究变得越来越重要.其中聚类是网络舆情分析中的一个非常重要的方法.传统的聚类算法都是基于词语来进行聚类,忽略了文本中可能隐含的信息.本文将TF-IDF和LDA主题模型分别计算的文本相似度进行线性结合来计算文本之间的相似度,从而进行更准确的聚类分析.在构建LDA主题模型时,通过Gibbs抽样来进行参数估计,通过贝叶斯统计的标准方法进行最优主题数的确定.在仿真实验中,

会议

网络舆情文本聚类相似度稳定性能

一种面向分布式系统的行为分析和检测方法

随着分布式系统并发性和交互性的不断增加,其可靠性变得难以保证,而对其行为进行建模、分析与检测是解决这一问题的重要手段.本文引入进程代数对分布式系统的行为建模,提出一种行为分析与检测方法.该方法通过分析二进制码获得系统的控制流程图并将其转换为进程表达式;通过消除表达式不确定性、添加并发操作以及约简归并等方式对表达式进行重写;依据并发规则消除进程表达式中的并发算子,建立分布式系统的行为检测模型,并给出

会议

分布式系统行为分析检测模型控制流程图

面向网络舆情的文本知识发现算法对比研究

信息时代,公民更多的参与到网络媒体中,产生出大量舆论,部分舆论需要进行检测、监控,以辅助相关部门决策,发扬积极舆论,引导消极舆论.面向网络舆情分析领域的应用,本文研究了系统聚类、String Kernels、K最近邻算法、SVM算法以及主题模型等五种聚类算法,以网络舆情数据为数据对象集,以R语言环境中为实验工具,对五种聚类算法进行了全面的对比研究,同时进行了仿真实验,比较了这五种算法在网络舆情文本

会议

网络舆情文本知识聚类算法

可证明安全的RFID群标签识别与认证协议

本文的基本思路是将解决RFID系统的安全问题分别划分到通信层和应用层，在通信层增加适量的认证协议，保证标签的基本信息不被泄露，防止克隆标签，在应用层再根据具体的应用环境设计其他的安全和隐私协议，基于此，本文提出了一种防冲突的RFID群认证协议（Group tags identification and authentication protocol，GIA），该协议从通信层来解决标签识别和安全与隐

会议

射频识别群标签识别认证协议安全性能

A Novel GPU Resources Management and Scheduling System based on Virtual Machines

With the capabilities of hardware resources increasing while prices also continuing to decline,virtual machine technologies have become more and more popular in industrial and academic areas to utiliz

会议

GPGPUCUDA virtualizationvirtual machineCPU/GPU hybrid systemGPU schedule

一种地理围栏服务中的LBS隐私保护方法

地理围栏技术广泛应用于推荐系统、广告推送等服务中,存在着严重的位置隐私泄露风险.针对地理围栏服务中的触发查询问题,设计了LBS隐私保护模型.该模型基于安全三方计算理论,遵循位置模糊和位置k-匿名的理念,达到了身份不可关联和位置不可追踪的目标.借鉴计算几何方法解决了触发查询场景下的位置匿名隐藏问题,利用密码学原理实现用户身份秘密认证.理论分析了模型的安全性,从隐私保护角度来看,攻击者没有从LBS系统

会议

基于位置服务隐私保护地理围栏服务

基于特征关联度的K-means初始聚类中心优化算法

其他学术论文