【摘 要】
:
在数据流滑动窗口上挖掘闭合频繁项集是数据流挖掘研究领域的一个热点问题,现有的算法如Moment算法存在着使用空间过大的问题。提出了基于Moment的OP-Moment算法(OP指乐观裁剪策略),使用OP-CET数据结构维护滑动窗口上的闭合频繁项集信息.该算法使用乐观裁剪策略来裁剪大量的非频繁节点,并在每个频繁节点上增加一个属性以跟踪被乐观裁剪的非频繁子节点的最大支持度变化情况;算法使用位图来记录滑
【机 构】
:
中国科学院软件研究所 北京 100190 中国科学院研究生院 北京 100049 中国科学院软件研
【出 处】
:
第二十五届中国数据库学术会议(NDBC2008)
论文部分内容阅读
在数据流滑动窗口上挖掘闭合频繁项集是数据流挖掘研究领域的一个热点问题,现有的算法如Moment算法存在着使用空间过大的问题。提出了基于Moment的OP-Moment算法(OP指乐观裁剪策略),使用OP-CET数据结构维护滑动窗口上的闭合频繁项集信息.该算法使用乐观裁剪策略来裁剪大量的非频繁节点,并在每个频繁节点上增加一个属性以跟踪被乐观裁剪的非频繁子节点的最大支持度变化情况;算法使用位图来记录滑动窗口上所有元素的信息.实验表明,OP-Moment算法在稀疏数据集和密集数据集下都能大大降低占用的空间,并且在密集数据集下也能保持较高的运行效率。
其他文献
在控制系统中需要获得采样信号用于系统的模型辨识或实时控制,而这些采样信号将不可避免的受到噪声的污染,使得系统控制精度得不到提高.小波变换的方法可以降低电机控制系统中的噪声影响,通过变换分解出高频噪声部分,利用小波收缩的阈值量化方法去掉高频部分,再重构信号从而达到去噪目的.通过实验总结出小波变换结合软阈值处理法在信号重构及去噪效果方面都是最优的.
本文针对系统输入更新周期为T,输出采样周期为nT的多速率系统,提出一种带有模型不确定性的多速率预测控制算法.它采用区间形式来定义模型参数的不确定性,通过对性能指标中的预测输出不确定性和跟踪误差的加权最小化,来设计预测控制器.在多速率的处理上,利用对两个输出采样点之间的n-1个预测输出值进行估计,来解决由于多速率引起的因果约束.仿真结果证明了算法的有效性.
本文根据实际的简化模型,建立了地层环境温度控制系统状态空间模型,在此基础上提出了基于开关量的多变量约束预测控制算法并将其应用到地层环境温度控制系统中,实际应用表明显示出了该算法的优良性能.
本文引入了利用时间序列的延时重构,然后采用延时方差及替代数据的时间序列非线性的检验方法,并将该方法应用于设备故障信号的非线性检验.通过数值实验及与传统方法对比结果表明,延时矢量法是一种有效、直观的非线性检验方法,对噪声信号具有很强的鲁棒性,而对非线性信号具有很高的敏感性.采用该方法对设备振动信号进行非线性检验,检验结果与实际情况相符.
本文首次给出了带有观测时滞的广义系统的稳态最优估值器.首先引入观测重组序列,给出了一种不需要状态增广即可处理带有观测时滞系统的方法,通过广义系统的标准分解得到最优估值器.进一步出于简化计算的考虑,给出稳态最优估值器.
本文研究了复参数最小二乘估计方法,提出了一种加权遗忘因子的复参数最小二乘估计方法(WFCRLS).通过对逆变器输出信号的分析变换获得信号的数学模型,利用WFCRLS实现了逆变器输出信号的谱估计,仿真结果表明本文方法的有效性.
随着网络应用的多样化,不响应流占据了相当比例,这些不响应流在原有的队列管理机制下将会获得较大带宽.总结了各种已有队列管理机制的不足,针对不响应流的特征提出了一种新的路由器拥塞控制选择性丢弃策略.在满足低带宽流需求的基础上,使响应流和不响应流可以公平地分享带宽.最后利用网络仿真软件对新的算法和其它几种算法进行了比较,说明了新算法能够明显提高公平性,并有较好的扩展性和适应性.
以正例(P)和未标识实例集(U)训练分类器的文本分类算法(PU文本分类)是解决某些机器学习中训练样本获取代价过大、尤其是反例样本较难获取的实际问题。而传统的分类算法大都需要正例和反例数据集才能取得良好的效果,因此要使用传统的分类方法来解决面向PU的分类问题,U集中可信反例的提取是分类器能够取得良好效果的关键.提出了有效的可信反例提取算法(基于聚类的可信反例提取算法)——CBRN,并对已有的PU文本
寻找DNA序列中的重复片段是DNA序列挖掘中的一项重要的研究内容,它是基因分析的一个重要问题。通常的方法采用特定的索引结构如后缀树、后继数组等,算法效率有待提高.提出一种新的索引结构,并在此基础上提出了MSATR算法。MSATR算法可以适用于各种不同相似度定义的DNA重复片段的查找.分析和实验表明,MSATR算法时间和空间复杂度为O(n).实验结果表明,MSATR算法有较好的查找效率,并且MSAT
概率数据流是传统数据流的泛化与扩展.在传统的数据流中,每一项都是给定值域内的一个确定值,又被称为确定性数据流.而对于概率数据流,每一项都是一个随机变量,是定义在值域上的概率分布,因此被称为概率数据流.这种新型的数据流模型对于处理概率数据、不确定数据及模糊数据等有着十分重要的作用,在数据清洗、数据集成、多传感器网络等领域有着广泛的应用。首次给出了基于滑动窗口的概率数据流上的聚集查询算法,解决的聚集查