您可以捐助,支持我们的公益事业。

1元 10元 50元





认证码:  验证码,看不清楚?请点击刷新验证码 必填



  求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Model Center   Code  
会员   
   
 
     
   
 
 订阅
系统评价——数据指标的规范化处理(一)
 
作者:郝hai
  237  次浏览      7 次
 2024-10-15
 
编辑推荐:
本文介绍了系统评价——数据指标的规范化处理相关内容。希望对你的学习有帮助。
本文来自于博客园,由火龙果软件Linda编辑,推荐。

在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始指标数据进行规范化处理。目前数据规范化方法有多种,归结起来可以分为直线型方法(如极值法、标准差法)、折线型方法(如三折线法)、曲线型方法(如半正态性分布)。不同的规范化方法,对系统的评价结果会产生不同的影响,然而不幸的是,在数据规范化方法的选择上,还没有通用的法则可以遵循。

!!!数据规范化前要注意数据的属性(极大型、极小型、中间型)以及数据发展变化规律(正指标、负指标)。

一、数据指标为什么要规范化?

数据指标的规划化实质是一种线性变换,线性变换有很多良好的性质,这些性质决定了对数据改变后不会造成“失效”,反而能提高数据的表现,这些性质是归一化/标准化的前提。比如有一个很重要的性质:线性变换不会改变原始数据的数值排序。

数据的量纲不同,数量级差别很大

经过规范化处理后,原始数据转化为无量纲化指标测评值,各指标值处于同一数量级别,可进行综合测评分析。如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。

避免数值问题:太大的数会引发数值问题。

平衡各特征的贡献

一些分类器需要计算样本之间的距离(如欧氏距离),例如KNN。如果一个特征值域范围非常大,那么距离计算就主要取决于这个特征,从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要)。

一些模型求解的需要:加快了梯度下降求最优解的速度

在使用梯度下降的方法求解最优化问题时,规范化后可以加快梯度下降的求解速度,即提升模型的收敛速度。

二、指标预处理——转化为正指标

选取合理的评价指标是综合评价问题的第一步,要考虑四个准则——代表性、确定性、独立性、区别能力。

代表性:各层次指标能最好地表达所代表的层次;

确定性:指标值要确定、可量化,高低在评价中有确切的含义;

独立性 :选定的指标要互相独立,不能相互替代;

区别能力/灵敏性:指标有一定的波动范围。

2.1 指标的属性分类

在我们选取的众多评价指标中,有些指标数值越大越好(“极大型”指标),有些指标越小越好(“极小型”指标),有些指标是在一定范围内(“区间型”指标)。

极大型指标:总是期望指标的取值越大越好;

极小型指标:总是期望指标的取值越小越好;

中间型指标:总是期望指标的取值既不要太大,也不要太小为好,即取适当的中间值为最好;

区间型指标:总是期望指标的取值最好是落在某一个确定的区间内为最好。

 

例如我们在期末进行综合测评时,评价指标中有学习成绩、缺课率等,学习成绩这项指标是取值越大越好,是极大型指标,学习成绩越高,综合测评得分相应越高;缺课率这项指标是越小越好,是极小型指标,缺课率越高,综合测评得分越低。因此,我们需要对指标进行一致化处理,将所有的指标转化为极大型指标或者极小型指标。

2.2 指标的转化公式

极大型指标(效益类指标),也就是正指标,不做处理

极小型指标(成本类指标):

中间型指标:

中间型指标的特点:指标的值既不要太大也不要太小,取某个特定的值最好(例如:评估水质量用到的PH值)

{xi}是 一组中间型指标序列,且最佳的数值为xbest, 那么正向化的公式如下:

 

区间型指标:

{xi}是一组区间型指标序列,且最佳的区间为[a,b],那么正向化的公式如下:

三、数据规范化方法

数据的规范化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上,常见的数据归一化的方法有:min-max标准化(Min-max normalization),z-score标准化(zero-mena normalization,此方法最为常用),模糊量化法。

3.1 min-max规范化(Min-maxnormalization)

也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:

对序列x1,x2,...,xn进行变换

则新序列y1,y2,...,yn∈[0,1]且无量纲,不同类型的数据加权时都要进行规范化处理。

离差标准化

其中max为样本数据的最大值,min为样本数据的最小值。

这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。

3.2 z-score规范化(zero-meannormalization)

并不是所有数据规范化的结果都映射到[0,1]区间上,其中最常见的标准化方法就是Z标准化,也叫标准差标准化。通过规范化,令数据的平均值为 0,标准化为1的标准化方法,在经济社会、传播学研究中使用普遍,公式如下:

其中μ为样本均值, σ为样本标准差。

优点:

保留数据真实距离,维持标准化前数据分布,缩放均为等比例缩放。

标准化后数据的平均值为0,标准化为1。

对极值不敏感。

缺点:

标准化后数据不在固定范围内,如用作指标体系计算还需要进一步标准化。

样本标准化后值不稳定,受样本平均值和标准差影响;当添加新样本时,旧样本的标准化值一定发生变化。

3.3 Sigmoid 函数规范化

如果数据呈现中间集中的分布,同时需要将区分中心部分的差距,可以使用 Sigmod 函数进行标准化,公式如下:

其中系数a为需要区分部分中心的值,系数b为需要区分的程度。

优点:

扭曲了原数据,扩大(加强)了某个中心附近的样本值之间的差距,缩小(减弱)了距离该中心较远的样本值之间的差距。

对极小值和极大值均完全不敏感。

样本标准化后的值稳定,不受样本最大值和最小值的影响。

缺点:

对距离中心较远的样本值之间的差距 非常 不敏感。

3.4 归一化处理

对正数进行变换,使结果落到[0,1]区间,其将数值的绝对值变成相对值关系

3.5 模数单位化

将每个样本的特征向量除以其长度,即对样本特征向量的长度进行归一化,长度的度量常使用的是L2 norm(欧氏距离),有时也会采用L1 norm。

四、几种规范化方法的比较

 

总的来说,规范化/归一化/标准化的目的是为了获得某种“无关性”——偏置无关、尺度无关、长度无关……当规范化/归一化/标准化方法背后的物理意义和几何含义与当前问题的需要相契合时,其对解决该问题就有正向作用,反之,就会起反作用。所以,“何时选择何种方法”取决于待解决的问题,即problem-dependent。

总结

评价是现代社会各领域的一项经常性的工作,是科学做出管理决策的重要依据。随着人们研究领域的不断扩大,所面临的评价对象日趋复杂,如果仅依据单一指标对事物进行评价往往不尽合理,必须全面地从整体的角度考虑问题,多指标综合评价方法应运而生。评价往往是由多个评价指标构成的,而这些评价指标往往具有不同的属性、数量级和单位,这导致我们无法对不同的指标进行比较、加权、求和等种种后续操作。假设各个指标之间的水平相差很大,此时直接使用原始指标进行分析时,数值较大的指标,在评价模型中的绝对作用就会显得较为突出和重要,而数值较小的指标,其作用则可能就会显得微不足道。因此,为了消除不同评价指标之间存在的差异,统一比较的标准,就需要对数据进行标准化处理,消除不同指标之间因属性不同而带来的影响,从而使结果更具有可比性。

 

 
   
237 次浏览       7
相关文章

基于图卷积网络的图深度学习
自动驾驶中的3D目标检测
工业机器人控制系统架构介绍
项目实战:如何构建知识图谱
 
相关文档

5G人工智能物联网的典型应用
深度学习在自动驾驶中的应用
图神经网络在交叉学科领域的应用研究
无人机系统原理
相关课程

人工智能、机器学习&TensorFlow
机器人软件开发技术
人工智能,机器学习和深度学习
图像处理算法方法与实践

最新活动计划
QT应用开发 11-21[线上]
C++高级编程 11-27[北京]
LLM大模型应用与项目构建 12-26[特惠]
UML和EA进行系统分析设计 12-20[线上]
数据建模方法与工具 12-3[北京]
SysML建模专家 1-16[北京]
 
 
最新文章
AIGC技术与应用全解析
详解知识图谱的构建全流程
大模型升级与设计之道
自动驾驶和辅助驾驶系统
ROS机器人操作系统底层原理
最新课程
人工智能,机器学习和深度学习
人工智能与机器学习应用实战
人工智能-图像处理和识别
人工智能、机器学习& TensorFlow+Keras框架实践
人工智能+Python+大数据
成功案例
某综合性科研机构 人工智能与机器学习应用
某银行 人工智能+Python+大数据
北京 人工智能、机器学习& TensorFlow框架实践
某领先数字地图提供商 Python数据分析与机器学习
中国移动 人工智能、机器学习和深度学习