正常化
规范化的数据
语法
描述
指定的类型为给定的方法标准化。例如,N
=正常化(___,方法
,methodtype
)正常化(“规范”,正无穷)
规范化的数据在一个
使用无穷范数。
使用N
=正常化(___“中心”,centertype
“规模”,scaletype
)“中心”
和“规模”
在同一时间的方法。这是唯一的方法可以用在一起。如果你不指定centertype
或scaletype
,然后正常使用默认方法类型的方法(定心的意思是0和扩展的标准偏差)。
使用这个语法与任何类型执行中心和规模两种方法。例如,N =正常化(A,“中心”,“中等”,“规模”,“疯狂”)
。您还可以使用该语法来指定值中心和规模C
和年代
从以前计算归一化。例如,一个数据集正常化并保存参数(N1, C, S) =正常化(A1)
。然后,再利用这些参数在不同的数据集N2 =正常化(A2,“中心”,C,“规模”,年代)
。
例子
向量和矩阵数据
规范化数据向量和矩阵计算z分数。
创建一个向量v
和计算z分数,规范数据的意思是0和标准偏差1。
v = 1:5;N =正常化(v)
N =1×50.6325 - 1.2649 -1.2649 - -0.6325 0
创建一个矩阵B
并计算每一列的z分数。然后,每一行正常化。
B =魔法(3)
B =3×38 1 6 3 5 7 4 9 2
N1 =正常化(B)
N1 =3×30 0.7559 -0.3780 1.0000 -0.7559 1.1339 -1.0000 0.3780 -1.1339
N2 =正常化(B, 2)
N2 =3×30 1.0000 -0.2774 1.1094 -1.0000 0.8321 -1.1094 0.2774 -0.8321
规模数据
规模一个向量一个
由它的标准差。
一个= 1:5;Ns =正常化(,“规模”)
Ns =1×50.6325 1.2649 1.8974 2.5298 3.1623
规模一个
所以它的范围是在区间[0,1]。
Nr =正常化(,“范围”)
Nr =1×50 0.2500 0.5000 0.7500 1.0000
指定方法类型
创建一个向量一个
由其1-norm和规范化。
一个= 1:5;Np =正常化(,“规范”,1)
Np =1×50.0667 0.1333 0.2000 0.2667 0.3333
中心的数据一个
所以,它的意思是0。
数控=正常化(,“中心”,“的意思是”)
数控=1×52 1 0 1 2
表变量
创建一个表包含五人的高度信息。
LastName = {“桑切斯”;“约翰逊”;“李”;“Diaz”;“棕色”};身高= [71;69;64;67;64);T =表(LastName、高度)
T =5×2表LastName高度_____ _____桑切斯71年约翰逊69年李64年“Diaz”67“棕色”64
最大高度规范化的高度数据。
N =正常化(T)“规范”正,“DataVariables”,“高度”)
N =5×2表LastName高度____ ____“桑切斯”1“约翰逊”0.97183“李”0.90141“Diaz”0.94366“棕色”0.90141
多个数据集具有相同的参数正常化
规范化数据集,还计算出的参数值,参数和重用应用相同的归一化到另一个数据集。
与两个变量创建一个时间表:温度
和风速
。然后创建第二个时间表相同的变量,但是一年后样本。
rng默认的Time1 = (datetime(2019、1、1):天(1):datetime (10) 2019 1) ';温度=兰迪(40 [10]10 1);= randi风速(20 [0]10 1);T1 =时间表(温度、风速、“RowTimes”Time1)
T1 =10×2时间表时间温度风速___________ ___________ _____ 35 3 02 - 01 - 1月- 2019年1月- 2019年38个20 03 - 2019年1月- 2019年1月13 20 04 - - 38 10 05 - 2019年1月- 2019年1月16日06 - 29日- 13 2 07 - 2019年1月- 2019年1月18日8 08 - - 26日19日09 - 1月- 2019年39 16 10 - 20 2019年1月- 39
Time2 = (datetime(2020、1、1):天(1):datetime (10) 2020 1) ';温度=兰迪(40 [10]10 1);= randi风速(20 [0]10 1);T2 =时间表(温度、风速、“RowTimes”Time2)
T2 =10×2时间表时间温度风速___________ ___________ _____ 01 - 1月- 2020年30 14 02 - 1月- 2020年11 0 36 5 04 - 03 - 1月- 2020年1月- 2020年38个0 05 - 2020年1月- 2020年1月31日2 06 - - 33 17 07 33 14 - 1月- 2020年08 - 2020年1月- 2020年1月22日6 09 - - 30 10 - 1月19日- 2020年15 0
正常化的第一个时间表。指定三个输出:归一化表,以及定心和尺度参数值C
和年代
这个函数使用执行规范化。
[T1_norm C S] =正常化(T1)
T1_norm =10×2时间表时间温度风速___________ ___________ _____ 01 - 1月- 2019 0.57687 -1.4636 02 - 1月- 2019年0.856 - 0.92885 03 - 1月- 2019年04—05 jan - 2019 0.856 -0.4785 0.92885 -1.4701 0.018609 - 0.36591 - 1月- 2019年06 - 1月- 2019年07年-1.4701 - -1.6044 -1.0049 - -0.75997 - 1月- 2019年08 - 1月- 2019年-0.26052 - 0.78812 09 - 2019年1月- 2019年1月0.94905 - 0.36591 10 - - 0.94905 - 0.92885
C =1×2表温度风速……_____ 28.8 - 13.4
S =1×2表温度风速……_____ 10.748 - 7.1056
现在第二个正常化的时间表T2
从第一个规范化使用参数值。这种技术确保了数据T2
集中和缩放以同样的方式吗T1
。
T2_norm =正常化(T2,“中心”C“规模”,年代)
T2_norm =10×2时间表时间温度风速___________ ___________ _____ 01 - 1月- 2020 0.11165 0.084441 02 - 1月- 2020年-1.6562 - -1.8858 03 - 1月- 2020年04—05 jan - 2020 0.856 -1.8858 -1.1822 0.66992 0.2047 - -1.6044 - 1月- 2020年06 - 1月- 2020年07年0.39078 - 0.50665 0.39078 - 0.084441 - 1月- 2020年08 - 1月- 2020年-0.6327 - -1.0414 09 - 2020年1月- 2020年1月0.11165 - 0.78812 10 - - -1.284 - -1.8858
默认情况下,正常化
作用于任何变量T2
也存在于C
和年代
。规范化的变量的一个子集T2
,指定变量的操作DataVariables
名称-值参数。您所指定的变量子集必须存在C
和年代
。
指定风速
作为数据变量来操作。正常化
作用于该变量并返回温度
不变。
T2_partial =正常化(T2,“中心”C“规模”年代,“DataVariables”,“风速”)
T2_partial =10×2时间表时间温度风速___________ ___________ _____ 30 0.084441 02 - 01 - 1月- 2020年1月- 2020年11 -1.8858 36 -1.1822 04 - 03 - 1月- 2020年1月- 2020年38 -1.8858 05 - 2020年1月- 2020年1月31日-1.6044 06 - - 33 33 0.084441 0.50665 07 - 1月- 2020年08 - 2020年1月- 2020年1月22日-1.0414 09 - - 30 0.78812 10 - 1月- 2020年15 -1.8858
输入参数
一个
- - - - - -输入数据
标量|向量|矩阵|多维数组|表|时间表
输入数据,指定为一个标量、向量矩阵,多维数组,表,或时间表。
如果一个
是一个数值数组和类型单
,然后输出也有类型单
。否则,输出类型双
。
正常化
忽略了南
值一个
。
数据类型:双
|单
|表
|时间表
复数的支持:万博1manbetx是的
昏暗的
- - - - - -操作维度
正整数标量
操作维度,指定为一个正整数标量。如果没有指定值,默认的是第一个数组维度的大小不等于1。
对于输入的数据表或时间表,昏暗的
不支持和操作变万博1manbetx量分别在每个表或时间表。
methodtype
- - - - - -方法类型
数组|表|双元素行向量|类型名称
方法类型,指定为一个数组,表,双元素行向量,或类型名称,根据指定的方法:
方法 |
方法类型选项 |
描述 |
---|---|---|
|
|
中心和规模意味着0和标准偏差1。 |
|
值0,中心和规模平均绝对偏差1。 |
|
|
积极的数字标量(默认是2) |
p规范。 |
|
无穷范数。 | |
|
|
规模的标准差。 |
|
规模的平均绝对偏差。 | |
|
规模数据的第一个元素。 | |
|
规模的四分位范围。 | |
数字数组 |
规模的数值。必须有一个数组兼容的大小与输入一个 。 |
|
表 |
表中使用变量。每个表变量的输入数据一个 扩展使用名称类似变量中的值换算表。 |
|
|
2-element行向量[0 1](默认) |
重新调节范围的数据表单的一个区间[b] ,在那里< b 。 |
|
|
中心意思是0。 |
|
中心值0。 | |
数字数组 |
转移中心数值。必须有一个数组兼容的大小与输入一个 。 |
|
表 |
转移中心表中使用变量。每个表变量的输入数据一个 集中使用名称类似变量中的值在定心表中。 |
centertype
,scaletype
- - - - - -中心和规模的方法类型
数组|表|类型名称
中心和规模方法类型,指定为任何有效methodtype
选择“中心”
或“规模”
方法,分别。看到methodtype
参数描述的可用选项列表的方法。
例子:N =正常化(A,“中心”,C,“规模”,年代)
名称-值参数
指定可选的双参数作为Name1 = Value1,…,以=家
,在那里的名字
参数名称和吗价值
相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。
R2021a之前,用逗号来分隔每一个名称和值,并附上的名字
在报价。
例子:正常化(T ' ReplaceValues假)
DataVariables
- - - - - -表变量来操作
表变量名|标量|向量|单元阵列|函数处理|表vartype
下标
表变量操作,指定为这个表的选项之一。的DataVariables
值表示该变量的输入表来填补。
没有指定表中的其他变量DataVariables
通过输出没有规范化。
选项 | 描述 | 例子 |
---|---|---|
变量名 | 一个特征向量或标量字符串指定单个表变量名 |
|
向量的变量名 | 特征向量的单元阵列或字符串数组,其中每个元素是一个表变量名 |
|
标量或矢量变量指标 | 一个标量或矢量表变量指标 |
|
逻辑向量 | 逻辑向量的每个元素对应一个表变量 |
|
函数处理 | 一个函数处理,表变量作为输入,并返回一个逻辑标量 |
|
vartype 下标 |
表生成的下标 |
|
例子:正常化(T“DataVariables”[“Var1”“Var2”“Var4”])
ReplaceValues
- - - - - -替换值指标
真正的
或1
(默认)|假
或0
替换值指标,当指定为一个值一个
是一个表或时间表:
真正的
或1
——输入表变量替换表包含标准化数据的变量。假
或0
——附加包含规范化数据输入表变量与表变量。
为向量、矩阵或多维数组输入数据,ReplaceValues
不支持。万博1manbetx
例子:正常化(T ' ReplaceValues假)
输出参数
N
-归一化值
数组表| |时间表
归一化值,作为一个数组,返回表,或时间表。
N
一样的尺寸吗一个
除非的价值ReplaceValues
是假
。如果该值的ReplaceValues
是假
,然后的宽度N
是输入数据的总和变量指定宽度和数量的数据。
正常化
通常作用于所有变量的输入表和时间表,除了在这些情况下:
如果您指定
DataVariables
,然后正常化
只作用于指定的变量。如果你使用语法
正常化(T,“中心”,C,“规模”,年代)
规范化一个表或时间表T
使用前面计算参数C
和年代
,然后正常化
自动使用的变量名C
和年代
确定变量的数据T
操作。
C
——中心值
阵列|表
定心的价值观,作为一个数组返回或表。
当一个
是一个数组,正常化
返回C
和年代
作为数组,N = (- C) / S
。每个值在C
是定心沿着指定的值用于执行规范化维度。例如,如果一个
是一个10 *矩阵的数据和正常化
运营的第一个维度C
是一个1-by-10向量包含每一列的定心值一个
。
当一个
是一个表或时间表,正常化
返回C
和年代
为表包含每个表变量的中心和尺度归一化,N。Var = (。Var - C.Var)。/ S.Var
。表变量的名字C
和年代
在输入匹配对应的表变量。每个变量在C
包含了定心值用于规范化类似命名变量一个
。
年代
——比例值
阵列|表
缩放值,作为一个数组返回或表。
当一个
是一个数组,正常化
返回C
和年代
作为数组,N = (- C) / S
。每个值在年代
是沿着指定的缩放值用于执行规范化维度。例如,如果一个
是一个10 *矩阵的数据和正常化
运营的第一个维度年代
是一个1-by-10向量包含每一列的缩放值一个
。
当一个
是一个表或时间表,正常化
返回C
和年代
为表包含每个表变量的中心和尺度归一化,N。Var = (。Var - C.Var)。/ S.Var
。表变量的名字C
和年代
在输入匹配对应的表变量。每个变量在年代
包含缩放值用于规范化类似命名变量一个
。
更多关于
Z分数
z分数衡量一个数据点的距离的平均值的标准偏差。标准化的数据集是0和标准偏差1,和保留形状属性的原始数据集(相同的偏态和峰态)。
为一个随机变量X意味着μ和标准差σ,z分数的值x是 对样本数据的意思 和标准偏差年代,z数据点的分数x是
P规范
的一般定义p规范的一个向量v有N元素
在哪里p是任何积极的真正价值,正
,或负
。一些常见的值p是1、2和正
。
如果p是1,那么结果1-norm向量元素的绝对值的总和。
如果p是2,那么结果2-norm给出了向量大小或欧几里得矢量的长度。
如果p是
正
,然后 。
重新调节
重新调节变化值的最大值和最小值之间的距离在一个数据集通过拉伸或挤压数轴上的点。的z分数的数据保存,所以分布的形状是相同的。
的方程重新调节数据X
任意区间[b]
是
而正常化
和重新调节
函数可以重新调节数据任意间隔,重新调节
还允许剪裁最大和最小值指定的输入数据。
四分位范围
四分位范围(差)的一个数据集描述范围的中间值的50%时,值排序。如果数据的中位数第二季的中值较低的数据的一半第一季度和中值数据的上半部分第三季,然后 。
差通常是优先于观察数据的全面数据包含异常值时(极大或极小值),因为差不包括最大的25%和25%的最小值数据。
平均绝对偏差
平均绝对偏差(疯狂)的一组数据的中位数是绝对偏离中值 的数据: 。因此,疯狂描述数据的可变性与中值。
疯了一般优于使用标准差的数据时,数据包含异常值(极大或极小值),因为广场偏离均值,标准差为离群值过于巨大的影响。相反,少量的离群值的偏差不影响价值的疯了。
扩展功能
高大的数组
计算和数组的行比装入内存。
使用笔记和限制:
输出
C
和年代
不受支持。万博1manbetx的
“中心”
和“规模”
方法不能同时指定。支持的类万博1manbetx型的方法
“中心”
是:“的意思是”
,“中值”
或数字标量。支持的类万博1manbetx型的方法
“规模”
是:“性病”
,“疯了”
,“第一”
或数字标量。的
DataVariables
名称-值参数不能指定一个函数处理。归一化方法需要计算值和四分位范围沿着第一个维度只支持高数据列向量。万博1manbetx这包括的方法
正常化(___,“zscore”,“健壮”)
,正常化(___,“规模”,“疯狂”)
,正常化(___,“规模”,“差”)
,正常化(___,“中心”、“中值”)
,正常化(___ medianiqr)
。
有关更多信息,请参见高大的数组。
C / c++代码生成
生成C和c++代码使用MATLAB®编码器™。
使用笔记和限制:
的
ReplaceValues
不支持名称参数。万博1manbetx当方法类型
“中心”
和“规模”
都是表和DataVariables
没有提供,该方法类型必须有表变量名相同的顺序。
线程环境
在后台运行代码使用MATLAB®backgroundPool
与并行计算工具箱™或加速代码ThreadPool
。
这个函数完全支持线程的环境。万博1manbetx有关更多信息,请参见MATLAB函数线程环境中运行。
GPU数组
加速代码运行在一个图形处理单元(GPU)使用并行计算工具箱™。
这个函数完全支持GPU数组。万博1manbetx有关更多信息,请参见运行在GPU MATLAB函数(并行计算工具箱)。
分布式阵列
分区大数组在内存使用并行计算集群的工具箱相结合™。
使用笔记和限制:
的语法
正常化(___ medianiqr)
不支持。万博1manbetx的语法
正常化(___,“规模”,“差”)
不支持。万博1manbetx
有关更多信息,请参见运行MATLAB函数与分布式阵列(并行计算工具箱)。
版本历史
介绍了R2018aR2022a:附加归一化值
你现在可以添加,而不是取代,输入表变量与表包含规范化数据通过设置变量ReplaceValues
名称-值参数假
。
的ReplaceValues
名称-值参数是仅支持输入数据表和时间表。万博1manbetx
MATLAB命令
你点击一个链接对应MATLAB命令:
运行该命令通过输入MATLAB命令窗口。Web浏览器不支持MATLAB命令。万博1manbetx
你也可以从下面的列表中选择一个网站:
表现最好的网站怎么走吗
选择中国网站(中文或英文)最佳站点的性能。其他MathWorks国家网站不优化的访问你的位置。