量化评价和质化评价举例_数据质量量化评价研究与实现
庄计龙 陈敏刚
摘要
关键词:数据质量;评价模型;层次分析法;熵权系数法
文章编号:2095-2163(2019)04-0071-05 中图分类号:TP311.13 文献标志码:A
0 引 言
在近年来科技迅速发展的背景下,在各个领域中广泛延伸的计算机系统软件不断生成海量的数据信息。不仅限于IT相关领域的今天,在不同行业的运营模式都开始重视数据管理。数据已经成为新时代最重要的资产之一[1]。
但这些数据可能因人为录入错误、人工篡改以及机械设备故障等因素而导致出现属性缺失现象,并且还可能出现重复相似的数据情况以及数值异常等问题[2]。这些缺陷可能导致冗余的数据存在,在存储空间上会占据不必要的容量从而在数据分析挖掘过程中会导致结果出现严重偏差[2]。在数据分析挖掘前必须确保所处理的数据质量状况良好因为只有高质量的数据才能被准确利用从而为决策提供可靠依据甚至直接关系到应用的效果与价值[3]。尽管当前关于数据分析质量的研究领域已初具规模但现有研究工作主要集中于数据库存储管理与分析技术等方面而对数据分析质量问题的关注程度仍有待加强[4]。由于各种缺失或错误的数据因素使得无法充分发挥有效信息的作用有时反而会导致重大的决策失误因此越来越多的专业人士开始重视并致力于推动数据分析质量相关领域的研究工作
1 构建数据质量评价模型
1.1 GB/T数据质量模型
数据质量研究的起源和发展主要源于国外。早期国内相关研究的主要理论依据均来源于ISO/IEC发布的系列标准。随着我国对数据质量问题关注度逐步提升,在GB/T 25000.12-2017和GB/T 25000.24-2017(自2018年5月1日起实施)这两个国家标准中,“针对计算机系统中以特定结构化形式保存的数据”,我们建立了一个通用的质量模型。“该模型从固有属性及依赖系统两方面划分了各项质量特性及其对应的属性。”其中包含有15项具体特性及63项属性。
1.2 裁剪构建数据质量评价模型
裁剪指标的依据来源主要有:
(1)根据最新的国家相关数据质量标准;
(2)咨询相关领域的专业人士的意见;
(3)上海软件中心实习期间的见闻;
(4)统计相关信息系统的指标要素构成。
通过裁剪操作获得的数据质量评估体系包含完整性(即数据的全面)、一致性(保证数据统一)、规范性的(确保标准统一)基础上发展出可靠性和独特性的核心框架
2 改进数据质量评价指标权重分配方法
2.1 改进的层次分析法
在数据质量评价过程中进行权重分配时,通常采用层次分析法[5]。该层次分析法与传统意义上的层次分析法存在显著差异,因此需要进行相应调整。将层次结构重新定义为包含目标层和指标维度层的新方法的具体步骤如下:
搭建层次结构模型框架。在确定目标层之前,需通过对数据进行深入分析和理解,为后续层级设定提供理论依据;随后,应在明确各项指标所属的维度基础上,完成中间层级的具体划分。
构建判断矩阵的过程涉及计算,在所有指标维度之间进行配对比较后,则按照特定的标准构建。具体而言,在邀请专家参考Santy所建议的1-9标度方法的基础上构建判断矩阵;
其中R.I.是随机一致性指标(Random Consistency Index)。在讨论一致比率方面指出若C.R.<0.1则认为该判断矩阵通过了一致性检验表明该判断矩阵的一致性程度处于可接受范围内因此由其导出的特征向量即可作为子特性的权重向量;若C.R.>0.1则称该判断矩阵不具备一致性通常情况下需要重新构建判断矩阵并重复上述过程以解决由此带来的成本问题为此文章引入了诱导矩阵修正法以用于修正判断矩阵从而尽可能避免重新构建判断矩阵的过程。
其计算步骤如下:
首先确定阀值并基于该阀值构建初始诱导矩阵;
然后通过求解线性方程组获得修正后的诱导矩阵;
最后利用修正后的诱导矩阵计算权重向量。
2.2 面向权重的熵权系数法
本文采用基于信息熵[7]的方法引入了熵权系数法[8]。当某评价指标的信息熵值较小时,则表明该指标所包含的信息量相对较高,在综合评价体系中所扮演的角色也更为重要,并将获得较高的权重值;反之,则当某评价指标的信息熵较大时,在综合评价体系中的作用将相对减弱,并伴随较低的权重值被赋予。通过运用 entropy 系数法,在计算各评估指标权重的过程中能够有效规避由于主观因素而导致的数据偏差
在本文针对数据质量的实际评价过程中,首先通过运用熵权系数法对指标的权重值进行计算;随后将计算出的权重值应用于数据质量评估模型中.具体步骤如下:第一步,确定评价指标并建立指标体系;第二步,利用熵权系数法计算各指标的权重值;第三步,根据权重值构建综合评价模型;第四步,利用模型对数据质量进行排序与分析.
2.2.1 评语集和指标集的确立
传统的熵权系数法通常涉及的问题是基于n个评价对象(方案)与m个评估指标构建模型的问题。然而,在本研究中针对数据质量评价的特点而言这一设定方式难以满足需求。为此,本文对原有的表述方式进行调整,并将其命名为WEWCM(Weight-Oriented Entropy Weight Coefficient Method)。
2.2.2 评价矩阵的建立
2.2.3 指标权重的求解
上文基于专家打分系统和统计数据方法成功建立了初始评价矩阵。基于上述分析框架及信息熵理论基础,则可系统性地求解各指标的权重分配值。以下将详细阐述这一计算流程的具体操作步骤:
3 数据质量量化评价设计与实现
3.1 功能性设计
功能性设计如图1所示。
3.2 技术架构设计
基于当前前沿的前端后端解耦技术,并结合各类技术应用的研究与分析,在本系统的技术架构选择中采用了B/S模式[10](如图2所示)。
基于前后端分离的整体架构框架,在逻辑上按照层级划分的技术架构分为四个层次:视图层(View Layer)、业务逻辑层(Business Logic Layer)、数据访问层(Data Access Layer)以及数据管理层面(Data Management Layer)。分离前后两端后会面临诸多跨域挑战;核心解决代码如下:
public void addCorsMappings(CorsRegistry registry) {
registry.addMapping("/**")
.allowedOrigins("*")
.allowCredentials(true)
.allowedMethods("GET","POST", "DELETE", "PUT")
.maxAge(3600);
}
3.3 系统功能模块实现
首先确定系统的开发环境和具体使用情况;其中前端使用Node框架作为核心框架,并采用WebStorm进行操作;而后端则以JDK 1.8作为Java运行时环境,并选择IntelliJ IDEA进行编程;本节将详细阐述数据质量评价配置模块的设计方案
数据质量评价配置模块是本文所开发系统的核心功能模块。具体流程如下:在前端系统的数据质量综合量化指标维度编辑界面设置相关规则约束等字段之后,将数据以JSON形式发送至后端执行相关指标计算,并将计算结果存储于数据库以及Redis缓存中以便后续用于总得分计算、可视化展示以及生成评价报告。这一部分旨在提升运算速度并充分调动CPU性能以实现高效的处理能力。模块时序如图3所示
4 实 验
文章使用真实电商领域的数据集进行数据质量评价实验。
(1)利用AHPIM计算权重。 通过一系列步骤算出权重为:
W={0.094,0.054,0.104,0.037,0.134,0.292,0.285},
(2)利用WEWCM计算权重。通过一系列步骤算出权重为:
w={0.149,0.184,0.149,0.230,0.184,0.070,0.035},
(3)综合AHPIM与WEWCM计算综合权重。
根据公式(10)求得质量维度的综合权重为:
w^=0.136,0.097,0.151,0.083,0.239,0.198,0.096.
在计算出各指标的综合权重后,这些权重也被设定为电商领域数据的标准权重并存入系统中。随后,在我们构建并实现了的数据质量评价平台上进行数据的质量评估工作。最终得出的数据质量评估结果如图4所示。
5 结束语
本文系统地探讨了数据质量和相关方向,并指出了现有数据质量研究中存在的主要缺陷。针对所发现的问题,在第一阶段中采用GB/T标准取代原先使用的ISO标准;随后,在第二阶段中综合运用多种方法对权重进行计算;最后在第三阶段中完成了系统的开发与设计工作。具体阐述了数据质量评价流程以及评价方法的应用过程,并通过可视化图表展示了评价结果;此外还对系统运行中的潜在问题进行了深入分析并提出了相应的优化建议;最终验证了该方案和系统的适用性和高效性。
参考文献
[1]Jaime Campos, Pankaj Sharma, Unai Gorostegui Gabiria, Erkki Jantunen, David Baglee. A Massive Data Analytical Framework for Asset Management[J]. Procedia CIRP, 2017, 64.
[2] 张元新. 网络开源数据可用性评价系统[D]. 哈尔滨工业大学,2017.
[3] 杨忠胜. 数据质量中精确性的研究[D]. 哈尔滨工业大学,2013.
[4] 延婉梅. 动车组大数据清洗关键技术研究与实现[D]. 北京交通大学,2015.
[5] Suvendu Chandan Nayak, Chitaranjan Tripathy. Lease scheduling that is deadline-sensitive in a cloud computing environment: application of the Analytic Hierarchy Process[J]. the Journal of King Saud University's College of Computer and Information Sciences, 2018, 30(2).
[6] 张炳江.层次分析法及其应用案例[M].北京:电子工业出版社,2014.
[7] M. W. Grenn, Shahram Sarkani, S. Mazzuchi. The entropy-based requirements framework for systems engineering research[J]. Systems Engineering, 2014, 第17卷第4期.
汤永利、徐国爱、钮心忻及其等. 基于信息熵的信息安全风险分析模型[J]. 北京邮电大学学报, 2008(2): 50-53.
[9] 文军. 基于熵权法的航空公司绩效评价研究[J]. 科学技术与工程,2009,9(22):6939-6941.
[10]李大为. 基于B/S架构的绩效考核管理系统设计与实现[D]. 吉林大学,2018.
