论文部分内容阅读
随着信息技术的不断普及,信息系统中的数据质量问题受到越来越多的关注,数据作为信息的载体,是影响决策重要性的基础元素,低劣的数据质量严重影响数据的传递、加工和反馈等过程,使决策无法正确地执行。
参考文献按一定的规则加工后就形成了引文数据。由于作者在撰写的论文、专著、期刊文献中并没有很好的贯彻实施参考文献国家标准GB7114规定的著录规则,这就造成了引文数据的杂乱无章。引文数据质量的优劣直接影响引文数据库的效能发挥,影响用户作为统计和评价工具用时的效果。因此,引文数据的质量控制非常的重要。数据质量评估是提高数据质量的基础和必要前提,它能对应用系统的整体或部分数据的质量状况给出一个合理的评估,从而可以帮助数据用户了解应用系统的数据质量水平,并采取相应的措施来提高数据质量。而引文加工又是影响引文数据质量的一个非常重要的方面,所以,本文主要针对中文引文数据加工质量进行分析,找出影响数据质量的因素,设计出质量评价模型,评价方法与算法,并用实例验证其可行性。
影响中文引文数据质量的因素很多,既有管理方面的因素,也有技术方面的因素。无论由哪个方面的因素造成的,其结果均表现在数据库中的数据没有达到预期的质量指标。本文主要从主观和客观两个因素对影响中文引文数据加工质量的基本要素进行分析,构建了中文引文数据加工质量的基本要素模型;通过层次分析法进行评价模型的设计;通过专家访谈、问卷调查、相关分析法等方法对评价指标体系进行设计,确定科学、合理的评价指标;通过加权平均法确定评价指标权重;通过理论研究和实例数据制定合理的抽取比例;通过实例验证,检验本文的研究成果是否适用。通过实例研究得出:小抽取样本中文引文数据的质量能够反映整体中文引文数据的质量情况,并验证了本文的评价模型,评价算法是适用的;通过对小于等于70分的评价指标进行分析,得出是由于加工人员的本身的知识、判断和理解能力等的不同而造成的,而不是加工生产线的问题;提出相应的措施和方法来提高中文引文数据的加工质量。