【摘 要】
:
函数依赖是一种常见的数据依赖,反映了数据之间的完整性约束.然而,现实世界存在着大量非精确的函数依赖,例如病理学家希望获得不同饮食习惯与不同疾病的关系,市场营销人员希望知道不同的年龄阶层与商品购买力间的关系等.这些数据间普遍存在的非精确的函数依赖关系为近似函数依赖(ApproximateFunctionalDependencies.近似函数依赖在知识发现、隐私保护和数据推演等方面都有着重要的作用.本
【机 构】
:
东北大学信息科学与工程学院,沈阳,110004
论文部分内容阅读
函数依赖是一种常见的数据依赖,反映了数据之间的完整性约束.然而,现实世界存在着大量非精确的函数依赖,例如病理学家希望获得不同饮食习惯与不同疾病的关系,市场营销人员希望知道不同的年龄阶层与商品购买力间的关系等.这些数据间普遍存在的非精确的函数依赖关系为近似函数依赖(ApproximateFunctionalDependencies.近似函数依赖在知识发现、隐私保护和数据推演等方面都有着重要的作用.本文提出了一种基于值等的近似XML函数依赖定义.使用XML近似函数依赖强度和支持度两个指标衡量XML近似函数依赖.提出了XML近似函数依赖约减集的概念,并提出一种抽取文档中XML近似函数依赖约减集的方法.本文还提出了多种优化抽取的策略,实验表明优化后的算法效率有了显著的提高.
其他文献
1998年2月,W3C推出了可扩展标记语言XML.随着XML成为Web上进行半结构化数据表示和数据交换的标准,XML数据相关技术的研究成为热点.本文首先给出XML多值依赖的一个定义,定义中采用约束限制范围很好地解决了多值依赖的有效性与属性集范围有关的问题.在此基础上,转化为信息表,利用不可分辨关系对信息表细化,并给出多值依赖的判定定理.根据多值依赖的特点,提出发现多值依赖的两点规则,并给出一个新的
随着因特网的快速发展,电子文档的数量增长极快,使得文本自动分类对于信息处理的意义变得更加重要,文本自动分类已成为一项重要的研究课题.目前,国内外学者已经提出了多种文本分类方法,如:Bayes、支持向量机、群体智能、神经网络、N-gram等,但仍然有很多问题亟待解决.本文针对文本分类提出了基于最大模糊支撑树的文本分类算法ATCMT,实验结果表明该算法是一种有效的方法.只要文本特征抽取准确、相似性度量
随着数据库技术的广泛应用,关系型数据库中保存了海量的数据,其中包括大量的用户隐私数据,例如住址、年龄、身份证号码、邮件地址、常用的银行卡号等.用户对隐私数据要求越来越多的保护,特别是电子商务的广泛开展使得这方面的需求越来越突出.数据隐私指用户有自主的权力来决定在什么时候,以什么样的方式,提供哪些数据和其他人进行交流.研究者在Hipocratic数据库的研究中提出限制非授权访问是隐私保护中一条非常重
本文在分析了CA数据样本的特性并进行多次实验之后,提出了适用于CA的数据挖掘方法.在运用了改进后的K-Mean和K-Mode方法的试验的最终结果表明,在由第IV类自动机生成的样本集中,虽然每个样本形态复杂,但是样本与样本之间存在一定相似性与规律性,这些发现会对利用CA来模拟预测现实世界的研究工作有所帮助.
RBAC的概念在20世纪70年代就已经提出,但是在此后的二十年中没有引起人们足够的重视.直到1996年R.S.Sandhu等人正式提出了RBAC96参考模型,这个模型由RBAC0,RBAC1,RBAC2和RBAC3四个子模型构成,RBAC0是最基本的模型,包括角色的授权(permis-sion)分配和用户的角色分配.RBAC1在RBACO的基础上增加了角色的层次(RoleHierarchy)概念,
本文提出了一种隐通道使用检测方法,通过挖掘数据库中审计信息检测隐通道的使用.作为一种特殊的信道,隐通道的发送者与接收者的行为之间存在依赖关系.通过分析与寻找审计表中记录的操作之间的依赖关系,可以检测出构成隐通道的操作.该方法并不依赖于对系统彻底的隐通道分析,并可以用于时序隐通道以及其他未知隐通道的识别.
作为信息交换和发布的标准数据格式,近年来XML已经得到了广泛应用.如RSS(RDFSiteSummary)技术,它是一种以XML为标准进行站点之间共享内容的简易方式,涉及的应用包括blog最新内容收集和新闻信息集成,将来还可能涉及到新闻搜索、求职信息注册等.对于一个持有大规模RSS文档的数据源,随着用户查询数量的不断增加,其信息检索和发布将成为一大负担.而RSS数据的结构简单,包含大量的文字描述,
已有的OLAP操作的研究成果大多基于单机环境.然而随着数据量的激增,已有的串行算法在海量数据面前显得力不从心;此外,并行计算技术已经在并行数据库领域得到充分的认定与发展,PC机群系统又因其价格低廉与完全并行而得到广泛的应用,于是研究基于PC机群系统的并行OLAP操作算法逐渐成为研究人员关注的一个重要问题,本文介绍基于维属性划分存储的并行聚集算法.
30多年来,数据库技术发展迅速且得到了广泛应用.一方面,数据建模形式多样,从层次数据库、网状数据库、关系数据库、对象数据库,直到关系对象数据库等等;另一方面,数据规模也越来越大.传统数据库技术的一个共同点是:数据存储在介质中,可以多次利用;但是在20世纪末,一种新型应用对它提出了有力的挑战.这种名为数据流(datastream)的应用模型广泛出现在众多领域,数据流不同于存储在磁盘上的关系数据,而是
联机分析处理(OLAP)是一种数据分析技术,它通过提供多角度、多粒度的查询和展现数据的功能,使得人们得以灵活地观察和分析数据.本文提出了一种基于单调性对聚集查询结果进行导航的方法.我们根据聚集查询结果在数据立方体格结构上的单调性,将OLAP常用的聚集函数分为两大类,一类满足向下(弱)单调性质,另一类满足向上单调性,分别找到向下(弱)单调聚集查询结果的上界入口集和向上单调聚集查询结果的下界入口集,作