TextGen:用于新型存储系统基准测试的真实文本数据集生成方法(英文)

来源 :Frontiers of Information Technology & Electronic Engineering | 被引量 : 0次 | 上传用户:yaya1717
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新型存储系统通过内置数据压缩功能提高性能,并节省存储空间。因此,数据内容会显著影响存储系统基准测试结果。由于真实数据集规模庞大,难以复制到目标测试系统,并且大多数数据集由于隐私性无法进行共享。因此,基准测试程序需要人工生成测试数据集。为了保证测试结果的准确性,需要根据影响存储系统性能的真实数据集特征信息生成数据。现有方法 SDGen在字节级别上分析真实数据集内容分布特征,并以此生成数据集,因此能够保证内置字节级压缩算法的存储系统测试结果准确。但是SDGen并未分析真实数据集的词级别内容分布特征,因此不能保证内置词级别压缩算法的存储系统测试结果准确,本文提出了一种基于Lognormal概率分布模型的文本数据集生成方法Text Gen。该方法根据真实数据集的词切分结果建立语料库,分析语料库中词的分布特征,利用最大似然估计得到词分布的Lognormal模型参数,根据模型采用蒙特卡洛方法生成数据内容。该方法生成数据集所消耗的时间只与生成数据集规模相关,具有线性的时间复杂度O(n)。本文收集了四种数据集验证方法有效性,并通过一种典型的词级别压缩算法——ETDC(End-Tagged Dense Code)进行测试。实验结果表明:相比SDGen,Text Gen生成文本数据集性能更高,并且,生成数据集用于压缩测试后与真实数据集的压缩速率、压缩率相似程度更高。 The new storage system boosts performance and saves storage space with built-in data compression. Therefore, the data content can significantly affect the storage system benchmark results. Due to the large size of the real data set, it is difficult to copy to the target test system, and most data sets can not be shared due to privacy. Therefore, the benchmark program needs to manually generate the test data set. To ensure the accuracy of test results, data needs to be generated according to the real data set characteristic information that affects the performance of the storage system. The existing method SDGen analyzes the distribution characteristics of real data set contents at the byte level and generates data sets thereby ensuring that the storage system test results of the built-in byte-level compression algorithm are accurate. However, SDGen does not analyze the lexical content distribution of real datasets. Therefore, it is impossible to guarantee the storage system test result of the built-in word-level compression algorithm is accurate. In this paper, a text dataset generation method Text Gen based on the Lognormal probability distribution model is proposed. The method builds a corpus based on the word segmentation result of real data set, analyzes the distribution characteristics of words in the corpus, uses the maximum likelihood estimation to get the Lognormal model parameter of word distribution, and generates the data content according to the model by Monte Carlo method. The time consumed by this method to generate a dataset is only related to the size of the generated dataset and has a linear time complexity O (n). In this paper, four data sets are collected to verify the effectiveness of the proposed method and tested by a typical word-level compression algorithm called ETDC (End-Tagged Dense Code). The experimental results show that Text Gen generated text datasets have higher performance than SDGen, and the generated datasets are more similar to the compression rate and compression ratio of the real datasets after the compression datasets are used to generate the datasets.
其他文献
12.Which travels faster, heat or cold?  答案:Heat.
早些年,中国还处于困难时期,“节约为美”“创造为美”成为时尚口号,万众齐呼地来响应,为缔造下一个“美丽”平台而努力。改革开放以后,中国历经许多艰辛,人民生活走进了小康
中国消防协会成立大会于1984年9日5日至8日在河北省廊坊市召开。参加这次大会的代表和特邀代表共有160名,其中有来自国务院二十三个部、委的有关负责同志,有二十九个省、市
由冯文元等人编著的《新编建筑材料检验手册》近日已由中国建材工业出版社出版发行。本书是《建筑材料检验手册》的修订本,故名《新编建筑材料检验手册》。与原书相比,主要修
初中数学中列方程(组)解应用题是学生学习的一个难点,解答应用题首先将实际问题转化为数学模型,其次用代数式表示出各个己知量和未知量,最后.找出问题中的等量关系,然后建立
小学数学教学中,几何图形概念教学有着极为重要的意义,同时也是学生学习中的难点。在新课改影响下,小学数学教学也开始进行了改革与创新,但想要真正提高学生的学习效果,需要
一、问题的提出随着基础教育课程改革的进一步深入,一本书、一支粉笔的课堂教学已经成为过去。刘国正先生在《做个视野开阔的中国人》中说:“课堂上就那么薄薄的几本课本,谈
齐齐哈尔市研究会于1988年11月9日至10日召开了企业思想政治工作实质与内涵专题研讨会。在谈到实现思想政治工作有效性的条件时,有的同志认为,大量实践证明,对职工思想情绪
在实际的工程中,楼板的非受力裂缝则最为常见。在这里结合某些工程实例,简要分析一下砖混工程混凝土楼板裂缝的特征、成因,简述了裂缝的危害性,针对楼板裂缝提出了相应的处理
蛛网膜下腔出血的病人有1/3以上,在出血后的某时间可发生脑血管痉挛,企图解除血管的痉挛至今仅取得极有限的成效。新近实验性工作提示环一磷酸腺甙(cAMP)对控制血管平滑肌有