面向Tabular库的数据模型及其查询问题

来源 :第三届CCF大数据学术会议 | 被引量 : 0次 | 上传用户:testsininet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  信息化的发展使得数据存储及表示形式呈现出分布性、异构性的特点,不仅包括关系数据库、面向对象数据库等传统结构化数据,还包括Excel、CSV等不具有明确结构的特殊非结构化数据等,与此同时,其数据呈现了量大、更新快、可用性弱等大数据特点。然而使用无结构和半结构化文档组织和管理Excel等表单数据,存在着数据弱可控、弱可用、及访问效率差的问题。针对该类问题,本文以Excel文本为数据源,提出了一种新的面向Tabular库的关系数据模型并讨论了其上的查询及优化问题。首先,给出了Tabular表单数据的形式化定义,其次,设计PartiPath划分树实现表格的关系划分及结构转换,在关系模型的基础上,给出其数据模型及数据模式,再者,定义了表单数据上的基本查询问题及融合用户兴趣指数改进查询相似度指标,最后给出实验分析并作出总结。
其他文献
摘要:体育游戏是一种有趣的教学方式,它一出现,就被学生们所喜爱,体育教学的特点是容易接受,具有娱乐性,能够充分调动学生参与初中体育课的兴趣,有益学生们的身心健康,还能够确保初中体育的教学质量。  关键词:体育游戏;初中体育教学;实践  前言:对于初中生来说,上体育课无非就是为了体育游戏,我们可以通过各式各样的体育游戏来提高初中体育教学的效率。体育游戏不仅能够增强学生的身体素质,还能够让学生们的心理
  随着城市化进程的进一步深化和3G、4G等数据通讯服务的进一步扩展,手机用户群对数据服务不断增长的需求和电信基站的服务性能之间的矛盾日益突出。如何准确地预测各个基站
会议
  以传感器数据为代表的时序数据是工业新发展的关键,其中,针对时序数据的聚合操作成为主要的应用场景之一。传统关系型数据库不足以支撑海量的时序数据,而现有的NoSQL数据库
会议
膜蒸馏(MD)是一种以多孔疏水膜为分离屏障的新兴热驱动膜分离技术,在海水淡化领域应用前景广阔。然而,MD的工业化放大亟需解决膜稳定性欠佳、通量较低和膜材料选择范围窄等关键
多糖对人具有极大的利用价值,植物多糖以其来源广泛且无细胞毒性而成为医药界研究的热门领域.芦荟作为民间用药已有几千年的历史,更是被誉为"20世纪最神奇的植物",在日用、医
  Grapes are one of the most widely cultivated fruit crops in the world.Chinese wild grape germplasm are important resources for crossbreeding and molecular b
会议
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
本研究以辽宁鞍山种植的雅龙果为实验材料,采用多种色谱技术(硅胶柱色谱、活性炭色谱、大孔吸附色谱、葡聚糖凝胶色谱、聚丙烯酰胺色谱、制备薄层色谱等),对雅龙果干燥叶子的95
旨在探索Na3V2O2(PO4)2F钠离子电池正极材料的制备方法和性能研究,构建高功率密度和长循环稳定性的钠离子电池储能体系。Na3V2O2(PO4)2F正极材料的容量和倍率性能受制于较大的
  相似自连接是一个在很多应用领域中很重要的问题。对于海量数据集,MapReduce可以提供一个有效的分布式计算框架,相似自连接操作也同样可以应用在MapReduce框架下。但已有
会议