fscchi2

单变量特性排名分类使用卡方测试

自从R2020a

所有的页面崩溃

语法

ResponseVarName idx = fscchi2(台)

idx = fscchi2(资源描述、公式)

idx = fscchi2(资源描述,Y)

idx = fscchi2 (X, Y)

idx = fscchi2 (___、名称、值)

[idx,分数]= fscchi2 (___)

描述

例子

idx= fscchi2 (资源描述,ResponseVarName)排名(预测)使用特性卡方测试。表资源描述包含预测变量和响应变量,ResponseVarName响应变量的名称吗资源描述。函数返回idx,其中包含预测要求的指标预测的重要性,意义idx (1)的指数是最重要的预测因子。您可以使用idx选择的重要预测因子分类问题。

idx= fscchi2 (资源描述,公式)指定一个响应变量和预测变量考虑的变量中资源描述通过使用公式。

idx= fscchi2 (资源描述,Y)排名预测资源描述使用响应变量Y。

例子

idx= fscchi2 (X,Y)排名预测X使用响应变量Y。

例子

idx= fscchi2 (___,名称,值)使用一个或多个名称-值对参数指定附加选项除了任何输入参数组合在前面的语法。例如,您可以指定先验概率和观察权重。

例子

(idx,分数)= fscchi2 (___)还返回预测分数分数。大的得分值表明,相应的预测是很重要的。

例子

全部折叠

在矩阵秩预测

打开生活的脚本

排名预测在一个数字矩阵和创建一个酒吧图预测重要的分数。

加载示例数据。

负载电离层

电离层包含预测变量(X)和一个响应变量(Y)。

排名预测使用卡方测试。

[idx,分数]= fscchi2 (X, Y);

中的值分数的负面日志吗p值。如果一个p值小于每股收益(0)值,那么相应的分数正。创建一个酒吧阴谋之前,确定分数包括正值。

找到(isinf(分数)

ans = 1 x0空两行向量

分数不包括正值。如果分数包括正值,你可以换正通过大型数字号码之前创建一个酒吧图可视化的目的。有关详细信息,请参见排名预测表。

创建一个酒吧的情节预测重要性分数。

栏(分数(idx))包含(“预测排名”)ylabel (“预测重要性分数”)

图包含一个坐标轴对象。坐标轴对象包含预测排名,ylabel预测重要性评分包含一个对象类型的酒吧。

选择五大最重要的预测因子。找到这些预测的列X。

idx (1:5)

ans =1×55 7 3 8 6

第五列X是最重要的预测Y。

排名预测表

打开生活的脚本

排名预测表中并创建一个酒吧图预测重要的分数。

如果你的表和数据fscchi2行列表中的变量的子集,然后只使用函数索引变量子集。因此,一个良好的实践是将你不想等级的预测表的结束。移动响应变量和观测权向量。然后,输出参数的指标符合表的索引。

加载census1994数据集。

负载census1994

表adultdata在census1994包含统计数据来自美国人口普查局预测一个人是否使每年超过50000美元。显示表的前三行。

头(adultdata, 3)

年龄workClass fnlwgt教育education_num marital_status种族职业关系性capital_gain capital_loss hours_per_week native_country工资___ ___________ __________ _____ _________________ _____________ _________________ _________________除了___ _____ _____ _____ _______ _______ * * * 39 State-gov 77516单身汉13未婚Adm-clerical家族的白人男性2174 0 40美国< = 50 k 50 Self-emp-not-inc 83311单身汉13 Married-civ-spouse Exec-managerial丈夫13美国白人男性0 0 < = 50 k 38私人2.1565 e + 05 HS-grad 9离婚Handlers-cleaners家族的白人男性40 0 0美国< = 50 k

表中adultdata,第三列fnlwgt样品的重量,最后一列吗工资是响应变量。移动fnlwgt左边的工资通过使用movevars函数。

adultdata = movevars (adultdata,“fnlwgt”,“之前”,“工资”);头(adultdata, 3)

种族性别年龄workClass教育education_num marital_status职业关系capital_gain capital_loss hours_per_week native_country fnlwgt工资___ ___________ _____ _________________ _____________ _________________ _________________ _____ _____ _______,_______ __________ ______是_____________ * * * 39 State-gov单身汉13未婚Adm-clerical家族的白人男性2174 0 77516美国< = 50 k 50 Self-emp-not-inc单身汉13 Married-civ-spouse Exec-managerial丈夫白人男性0 0 83311年美国13日< = 50 k 38私人HS-grad 9离婚Handlers-cleaners家族的白人男性40 0 0美国2.1565 e + 05 < = 50 k

等级的预测adultdata。指定的列工资作为响应变量,并指定列fnlwgt观察权重。

[idx,分数]= fscchi2 (adultdata,“工资”,“重量”,“fnlwgt”);

中的值分数的负面日志吗p值。如果一个p值小于每股收益(0)值,那么相应的分数正。创建一个酒吧阴谋之前,确定分数包括正值。

idxInf =找到(isinf(分数))

idxInf =1×81 3 4 5 6 7 10 12

分数包括八个正值。

创建一个酒吧图预测重要的分数。使用预测的名称x设在标记标签。

图酒吧(分数(idx))包含(“预测排名”)ylabel (“预测重要性分数”)xticklabels (strrep (adultdata.Properties.VariableNames (idx),“_”,“\ _”)xtickangle (45)

的酒吧函数不绘制任何酒吧正值。为正相同的价值观,情节酒吧,作为最大的长度有限的分数。

持有在酒吧(分数(idx(长度(idxInf) + 1) *(长度(idxInf), 1))传说(“有限的分数”,“正分数”)举行从

图包含一个坐标轴对象。坐标轴对象包含预测排名,ylabel预测重要性评分包含2对象类型的酒吧。这些对象是有限的分数,正分数。

条形图显示有限的分数和正分数使用不同的颜色。

输入参数

全部折叠

`资源描述`- - - - - -样本数据
表

样本数据,指定为一个表。多列变量和细胞数组以外的细胞阵列的特征向量是不允许的。

每一行的资源描述对应于一个观察,每一列对应一个预测变量。可选地,资源描述响应变量可以包含额外的列和观察权重。

响应变量可以是一个直言,字符,或字符串数组,逻辑或数值向量,或单元阵列的特征向量。如果响应变量是一个字符数组,每个元素的响应变量必须对应一行的数组。

如果资源描述包含响应变量,你想使用所有剩余的变量资源描述作为预测因子,然后通过使用指定的响应变量ResponseVarName。如果资源描述还包含观察权重,那么您可以指定使用的重量权重。
如果资源描述包含响应变量,和你想使用剩余的变量的一个子集资源描述作为预测因子,然后由使用指定变量的子集公式。
如果资源描述不包含响应变量,然后指定一个响应变量通过使用Y。响应变量和资源描述必须有相同数量的行。

如果fscchi2使用变量的子集资源描述预测,那么函数索引预测仅使用子集。中的值“CategoricalPredictors”名称-值对参数和输出参数idx不计数函数的预测没有排名。

fscchi2认为南,”(空字符向量),”“(空字符串),<失踪>,<定义>值资源描述一个反应变量缺失值。fscchi2不使用观测与失踪的响应变量的值。

数据类型:表

`ResponseVarName`- - - - - -响应变量名
特征向量包含变量名称或字符串标量`资源描述`

响应变量名称,指定为一个特征向量或字符串标量包含变量的名称资源描述。

例如,如果一个响应变量的列Y的资源描述(Tbl.Y),然后指定ResponseVarName作为“Y”。

数据类型:字符|字符串

`公式`- - - - - -说明模型的响应变量和预测变量的子集
特征向量|字符串标量

响应变量的解释模型和预测变量的一个子集,指定为一个特征向量或字符串标量形式“Y ~ x1 + x2 + x3”。在这种形式,Y代表的响应变量,x1,x2,x3代表了预测变量。

指定变量的子集资源描述为预测因子,使用一个公式。如果您指定一个公式fscchi2没有等级变量吗资源描述不出现在公式。

公式中的变量名必须两变量名资源描述(Tbl.Properties.VariableNamesMATLAB)和有效^®标识符。您可以验证变量名资源描述通过使用isvarname函数。如果变量名是无效的,那么您可以将其转换使用matlab.lang.makeValidName函数。

数据类型:字符|字符串

`Y`- - - - - -反应变量
数值向量|分类向量|逻辑向量|字符数组|字符串数组|单元阵列的特征向量

响应变量、指定为一个数字分类,或逻辑向量,字符或字符串数组或单元阵列的特征向量。每一行的Y代表的标签对应的行X。

fscchi2认为南,”(空字符向量),”“(空字符串),<失踪>,<定义>值Y缺失值。fscchi2不使用和缺失值的观察吗Y。

数据类型:单|双|分类|逻辑|字符|字符串|细胞

`X`- - - - - -预测数据
数字矩阵

预测数据,指定为一个数字矩阵。每一行的X对应于一个观察,每一列对应一个预测变量。

数据类型:单|双

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:“UseMissing”“NumBins”, 20日,真的集箱的数量是20,并指定使用缺失值的预测排名。

`CategoricalPredictors`- - - - - -列表的分类预测
向量的正整数|逻辑向量|字符矩阵|字符串数组|单元阵列的特征向量|`“所有”`

分类预测列表,该表中指定的值。

价值	描述
向量的正整数	向量中的每个条目是一个索引值表明相应的预测分类。索引值介于1和`p`,在那里`p`预测的数量被用来训练模型。如果`fscchi2`使用输入变量的子集作为预测因子,然后只使用函数索引预测指标子集。的`CategoricalPredictors`值不计数响应变量,观察权重变量,或任何其他变量,函数不使用。
逻辑向量	一个`真正的`意味着相应的预测分类条目。向量的长度`p`。
字符矩阵	矩阵的每一行是一个预测变量的名字。名称必须匹配的名称`资源描述`。垫的名字与额外的空格字符矩阵的每一行有相同的长度。
字符串数组或单元阵列的特征向量	数组中的每个元素是一个预测变量的名字。名称必须匹配的名称`资源描述`。
`“所有”`	所有预测都直言。

默认情况下,如果预测数据表(资源描述),fscchi2假设变量是直言如果它是一个逻辑向量,无序分类向量,字符数组,字符串数组或单元阵列特征向量。如果预测数据是一个矩阵(X),fscchi2假设所有的预测都是连续的。识别任何其他预测分类预测,通过使用指定它们CategoricalPredictors名称-值参数。

例子:“CategoricalPredictors”、“所有”

例子:CategoricalPredictors = 5 6 8 [1]

数据类型:单|双|逻辑|字符|字符串|细胞

`一会`- - - - - -类的名字用于排名
分类数组|字符数组|字符串数组|逻辑向量|数值向量|单元阵列的特征向量

类的名称用于排名,指定为逗号分隔组成的“类名”和分类、字符或字符串数组,一个逻辑或数值向量,或单元阵列的特征向量。一会必须具有相同的数据类型Y或响应变量资源描述。

如果一会每个元素是一个字符数组,那么必须对应一个数组的行。

使用“类名”:

指定的顺序之前维对应于类订单。
选择一个子集类排名。例如,假设所有不同的类名称的集合Y是{' a ', ' b ', ' c '}。从类等级预测使用的观察“一个”和“c”只是,指定“类名”,{' a ', ' c '}。

的默认值“类名”所有不同的类名称的集合在吗Y或响应变量资源描述。默认的“类名”价值的数学要求如果响应变量顺序。否则,默认值按字母顺序排序。

例子:“类名”,{' b ', ' g '}

数据类型:分类|字符|字符串|逻辑|单|双|细胞

`NumBins`- - - - - -装箱的箱子数量连续的预测因子
10(默认)|正整数标量

装箱的箱子数量连续预测,指定为逗号分隔组成的“NumBins”和一个正整数标量。

例子:“NumBins”, 50岁

数据类型:单|双

`之前`- - - - - -先验概率
`“经验”`(默认)|`“统一”`|向量的标量值|结构

先验概率为每个类,指定为以下之一:

特征向量或字符串标量。
- “经验”确定类类频率响应变量的概率Y或资源描述。如果你通过观察权重,fscchi2使用重量计算类概率。
- “统一”集所有类概率相等。
向量(一个标量值为每个类)。指定的类订单对应的元素“之前”,设置“类名”名称-值参数。
结构年代两个字段。
- S.ClassNames包含类名相同类型的变量作为响应变量Y或资源描述。
- S.ClassProbs包含一个向量对应的概率。

fscchi2规范化的权重在每个类(“重量”)加起来的价值各自的类的先验概率。

例子:“前”、“制服”

数据类型:字符|字符串|单|双|结构体

`UseMissing`- - - - - -指标在预测是否使用或丢弃缺失值
`假`(默认)|`真正的`

指标在预测是否使用或丢弃缺失值,指定为逗号分隔组成的“UseMissing”,要么真正的使用或假抛弃缺失值的预测排名。

fscchi2认为南,”(空字符向量),”“(空字符串),<失踪>,<定义>值缺失值。

如果您指定“UseMissing”,真的,然后fscchi2使用缺失值排名。分类变量,fscchi2把缺失的值作为一个额外的类别。连续变量,fscchi2的地方南装箱的值在一个单独的本。

如果您指定“UseMissing”,假的,然后fscchi2不使用缺失值排名。因为fscchi2计算重要性分数分别为每个预测,该函数不丢弃整个行值时行部分失踪。为每一个变量,fscchi2使用所有的值没有失踪。

例子:“UseMissing”,真的

数据类型:逻辑

`权重`- - - - - -观察权重
`(大小(X, 1), 1)`(默认)|向量的标量值|变量的名字`资源描述`

观察体重、指定为逗号分隔组成的“重量”和一个向量的标量值或变量的名称资源描述。每一行的观测函数权重X或资源描述与相应的价值权重。的大小权重必须等于中的行数X或资源描述。

如果您指定输入数据表资源描述,然后权重可以是一个变量的名字资源描述包含一个数字向量。在这种情况下,您必须指定权重作为一个特征向量或字符串标量。例如,如果体重是列向量W的资源描述(Tbl.W),然后指定“权重”W”。

fscchi2规范化的权重在每个类的值添加到相应的类的先验概率。

数据类型:单|双|字符|字符串

输出参数

全部折叠

`idx`——指数预测下令预测的重要性
数值向量

指数的预测X或资源描述下令预测的重要性,作为一个1 -返回r数字矢量,r是排名的数量预测。

如果fscchi2使用变量的子集资源描述预测,那么函数索引预测仅使用子集。例如,假设资源描述包括10列和你指定的最后5列资源描述通过使用作为预测变量公式。如果idx (3)是5,然后第三个最重要的因素是第十列资源描述,这是第五个预测的子集。

`分数`——预测分数
数值向量

预测成绩,作为1 -返回r数字矢量,r是排名的数量预测。

大的得分值表明,相应的预测是很重要的。

如果你使用X指定预测或使用的所有变量资源描述作为预测因子,然后中的值分数同一订单的预测吗X或资源描述。
如果您指定变量的子集资源描述作为预测因子,然后中的值分数子集的顺序相同。

例如,假设资源描述包括10列和你指定的最后5列资源描述通过使用作为预测变量公式。然后,分数(3)包含8列的得分值资源描述第三因素子集。

算法

全部折叠

排名使用卡方测试单变量特性

fscchi2检查是否每个预测变量是独立于响应变量用个人卡方测试。一个小p检验统计量的值表明,相应的预测变量依赖于响应变量,,因此是一个重要的特性。
输出分数是日志(p)。因此,大的得分值表明,相应的预测是很重要的。如果一个p值小于每股收益(0),然后输出正。
fscchi2检查装箱后连续变量或离散化变量。您可以指定箱使用的数量“NumBins”名称-值对的论点。

版本历史

介绍了R2020a

另请参阅

fscmrmr|relieff|sequentialfs|fscnca

主题

介绍了特征选择

fscchi2

语法

描述

例子

在矩阵秩预测

排名预测表

输入参数

资源描述- - - - - -样本数据表

ResponseVarName- - - - - -响应变量名特征向量包含变量名称或字符串标量资源描述

公式- - - - - -说明模型的响应变量和预测变量的子集特征向量|字符串标量

Y- - - - - -反应变量数值向量|分类向量|逻辑向量|字符数组|字符串数组|单元阵列的特征向量

X- - - - - -预测数据数字矩阵

名称-值参数

CategoricalPredictors- - - - - -列表的分类预测向量的正整数|逻辑向量|字符矩阵|字符串数组|单元阵列的特征向量|“所有”

一会- - - - - -类的名字用于排名分类数组|字符数组|字符串数组|逻辑向量|数值向量|单元阵列的特征向量

NumBins- - - - - -装箱的箱子数量连续的预测因子10(默认)|正整数标量

之前- - - - - -先验概率“经验”(默认)|“统一”|向量的标量值|结构

UseMissing- - - - - -指标在预测是否使用或丢弃缺失值假(默认)|真正的

权重- - - - - -观察权重(大小(X, 1), 1)(默认)|向量的标量值|变量的名字资源描述

输出参数

idx——指数预测下令预测的重要性数值向量

分数——预测分数数值向量

算法

排名使用卡方测试单变量特性

版本历史

另请参阅

主题

`资源描述`- - - - - -样本数据
表

`ResponseVarName`- - - - - -响应变量名
特征向量包含变量名称或字符串标量`资源描述`

`公式`- - - - - -说明模型的响应变量和预测变量的子集
特征向量|字符串标量

`Y`- - - - - -反应变量
数值向量|分类向量|逻辑向量|字符数组|字符串数组|单元阵列的特征向量

`X`- - - - - -预测数据
数字矩阵

`CategoricalPredictors`- - - - - -列表的分类预测
向量的正整数|逻辑向量|字符矩阵|字符串数组|单元阵列的特征向量|`“所有”`

`一会`- - - - - -类的名字用于排名
分类数组|字符数组|字符串数组|逻辑向量|数值向量|单元阵列的特征向量

`NumBins`- - - - - -装箱的箱子数量连续的预测因子
10(默认)|正整数标量

`之前`- - - - - -先验概率
`“经验”`(默认)|`“统一”`|向量的标量值|结构

`UseMissing`- - - - - -指标在预测是否使用或丢弃缺失值
`假`(默认)|`真正的`

`权重`- - - - - -观察权重
`(大小(X, 1), 1)`(默认)|向量的标量值|变量的名字`资源描述`

`idx`——指数预测下令预测的重要性
数值向量

`分数`——预测分数
数值向量