主要内容

fscchi2

单变量特性排名分类使用卡方测试

自从R2020a

描述

例子

idx= fscchi2 (资源描述,ResponseVarName)排名(预测)使用特性卡方测试。表资源描述包含预测变量和响应变量,ResponseVarName响应变量的名称吗资源描述。函数返回idx,其中包含预测要求的指标预测的重要性,意义idx (1)的指数是最重要的预测因子。您可以使用idx选择的重要预测因子分类问题。

idx= fscchi2 (资源描述,公式)指定一个响应变量和预测变量考虑的变量中资源描述通过使用公式

idx= fscchi2 (资源描述,Y)排名预测资源描述使用响应变量Y

例子

idx= fscchi2 (X,Y)排名预测X使用响应变量Y

例子

idx= fscchi2 (___,名称,值)使用一个或多个名称-值对参数指定附加选项除了任何输入参数组合在前面的语法。例如,您可以指定先验概率和观察权重。

例子

(idx,分数)= fscchi2 (___)还返回预测分数分数。大的得分值表明,相应的预测是很重要的。

例子

全部折叠

排名预测在一个数字矩阵和创建一个酒吧图预测重要的分数。

加载示例数据。

负载电离层

电离层包含预测变量(X)和一个响应变量(Y)。

排名预测使用卡方测试。

[idx,分数]= fscchi2 (X, Y);

中的值分数的负面日志吗p值。如果一个p值小于每股收益(0)值,那么相应的分数。创建一个酒吧阴谋之前,确定分数包括值。

找到(isinf(分数)
ans = 1 x0空两行向量

分数不包括值。如果分数包括值,你可以换通过大型数字号码之前创建一个酒吧图可视化的目的。有关详细信息,请参见排名预测表

创建一个酒吧的情节预测重要性分数。

栏(分数(idx))包含(“预测排名”)ylabel (“预测重要性分数”)

图包含一个坐标轴对象。坐标轴对象包含预测排名,ylabel预测重要性评分包含一个对象类型的酒吧。

选择五大最重要的预测因子。找到这些预测的列X

idx (1:5)
ans =1×55 7 3 8 6

第五列X是最重要的预测Y

排名预测表中并创建一个酒吧图预测重要的分数。

如果你的表和数据fscchi2行列表中的变量的子集,然后只使用函数索引变量子集。因此,一个良好的实践是将你不想等级的预测表的结束。移动响应变量和观测权向量。然后,输出参数的指标符合表的索引。

加载census1994数据集。

负载census1994

adultdatacensus1994包含统计数据来自美国人口普查局预测一个人是否使每年超过50000美元。显示表的前三行。

头(adultdata, 3)
年龄workClass fnlwgt教育education_num marital_status种族职业关系性capital_gain capital_loss hours_per_week native_country工资___ ___________ __________ _____ _________________ _____________ _________________ _________________除了___ _____ _____ _____ _______ _______ * * * 39 State-gov 77516单身汉13未婚Adm-clerical家族的白人男性2174 0 40美国< = 50 k 50 Self-emp-not-inc 83311单身汉13 Married-civ-spouse Exec-managerial丈夫13美国白人男性0 0 < = 50 k 38私人2.1565 e + 05 HS-grad 9离婚Handlers-cleaners家族的白人男性40 0 0美国< = 50 k

表中adultdata,第三列fnlwgt样品的重量,最后一列吗工资是响应变量。移动fnlwgt左边的工资通过使用movevars函数。

adultdata = movevars (adultdata,“fnlwgt”,“之前”,“工资”);头(adultdata, 3)
种族性别年龄workClass教育education_num marital_status职业关系capital_gain capital_loss hours_per_week native_country fnlwgt工资___ ___________ _____ _________________ _____________ _________________ _________________ _____ _____ _______,_______ __________ ______是_____________ * * * 39 State-gov单身汉13未婚Adm-clerical家族的白人男性2174 0 77516美国< = 50 k 50 Self-emp-not-inc单身汉13 Married-civ-spouse Exec-managerial丈夫白人男性0 0 83311年美国13日< = 50 k 38私人HS-grad 9离婚Handlers-cleaners家族的白人男性40 0 0美国2.1565 e + 05 < = 50 k

等级的预测adultdata。指定的列工资作为响应变量,并指定列fnlwgt观察权重。

[idx,分数]= fscchi2 (adultdata,“工资”,“重量”,“fnlwgt”);

中的值分数的负面日志吗p值。如果一个p值小于每股收益(0)值,那么相应的分数。创建一个酒吧阴谋之前,确定分数包括值。

idxInf =找到(isinf(分数))
idxInf =1×81 3 4 5 6 7 10 12

分数包括八个值。

创建一个酒吧图预测重要的分数。使用预测的名称x设在标记标签。

图酒吧(分数(idx))包含(“预测排名”)ylabel (“预测重要性分数”)xticklabels (strrep (adultdata.Properties.VariableNames (idx),“_”,“\ _”)xtickangle (45)

酒吧函数不绘制任何酒吧值。为相同的价值观,情节酒吧,作为最大的长度有限的分数。

持有酒吧(分数(idx(长度(idxInf) + 1) *(长度(idxInf), 1))传说(“有限的分数”,“正分数”)举行

图包含一个坐标轴对象。坐标轴对象包含预测排名,ylabel预测重要性评分包含2对象类型的酒吧。这些对象是有限的分数,正分数。

条形图显示有限的分数和正分数使用不同的颜色。

输入参数

全部折叠

样本数据,指定为一个表。多列变量和细胞数组以外的细胞阵列的特征向量是不允许的。

每一行的资源描述对应于一个观察,每一列对应一个预测变量。可选地,资源描述响应变量可以包含额外的列和观察权重。

响应变量可以是一个直言,字符,或字符串数组,逻辑或数值向量,或单元阵列的特征向量。如果响应变量是一个字符数组,每个元素的响应变量必须对应一行的数组。

  • 如果资源描述包含响应变量,你想使用所有剩余的变量资源描述作为预测因子,然后通过使用指定的响应变量ResponseVarName。如果资源描述还包含观察权重,那么您可以指定使用的重量权重

  • 如果资源描述包含响应变量,和你想使用剩余的变量的一个子集资源描述作为预测因子,然后由使用指定变量的子集公式

  • 如果资源描述不包含响应变量,然后指定一个响应变量通过使用Y。响应变量和资源描述必须有相同数量的行。

如果fscchi2使用变量的子集资源描述预测,那么函数索引预测仅使用子集。中的值“CategoricalPredictors”名称-值对参数和输出参数idx不计数函数的预测没有排名。

fscchi2认为,(空字符向量),”“(空字符串),<失踪>,<定义>资源描述一个反应变量缺失值。fscchi2不使用观测与失踪的响应变量的值。

数据类型:

响应变量名称,指定为一个特征向量或字符串标量包含变量的名称资源描述

例如,如果一个响应变量的列Y资源描述(Tbl.Y),然后指定ResponseVarName作为“Y”

数据类型:字符|字符串

响应变量的解释模型和预测变量的一个子集,指定为一个特征向量或字符串标量形式“Y ~ x1 + x2 + x3”。在这种形式,Y代表的响应变量,x1,x2,x3代表了预测变量。

指定变量的子集资源描述为预测因子,使用一个公式。如果您指定一个公式fscchi2没有等级变量吗资源描述不出现在公式

公式中的变量名必须两变量名资源描述(Tbl.Properties.VariableNamesMATLAB)和有效®标识符。您可以验证变量名资源描述通过使用isvarname函数。如果变量名是无效的,那么您可以将其转换使用matlab.lang.makeValidName函数。

数据类型:字符|字符串

响应变量、指定为一个数字分类,或逻辑向量,字符或字符串数组或单元阵列的特征向量。每一行的Y代表的标签对应的行X

fscchi2认为,(空字符向量),”“(空字符串),<失踪>,<定义>Y缺失值。fscchi2不使用和缺失值的观察吗Y

数据类型:||分类|逻辑|字符|字符串|细胞

预测数据,指定为一个数字矩阵。每一行的X对应于一个观察,每一列对应一个预测变量。

数据类型:|

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:“UseMissing”“NumBins”, 20日,真的集箱的数量是20,并指定使用缺失值的预测排名。

分类预测列表,该表中指定的值。

价值 描述
向量的正整数

向量中的每个条目是一个索引值表明相应的预测分类。索引值介于1和p,在那里p预测的数量被用来训练模型。

如果fscchi2使用输入变量的子集作为预测因子,然后只使用函数索引预测指标子集。的CategoricalPredictors值不计数响应变量,观察权重变量,或任何其他变量,函数不使用。

逻辑向量

一个真正的意味着相应的预测分类条目。向量的长度p

字符矩阵 矩阵的每一行是一个预测变量的名字。名称必须匹配的名称资源描述。垫的名字与额外的空格字符矩阵的每一行有相同的长度。
字符串数组或单元阵列的特征向量 数组中的每个元素是一个预测变量的名字。名称必须匹配的名称资源描述
“所有” 所有预测都直言。

默认情况下,如果预测数据表(资源描述),fscchi2假设变量是直言如果它是一个逻辑向量,无序分类向量,字符数组,字符串数组或单元阵列特征向量。如果预测数据是一个矩阵(X),fscchi2假设所有的预测都是连续的。识别任何其他预测分类预测,通过使用指定它们CategoricalPredictors名称-值参数。

例子:“CategoricalPredictors”、“所有”

例子:CategoricalPredictors = 5 6 8 [1]

数据类型:||逻辑|字符|字符串|细胞

类的名称用于排名,指定为逗号分隔组成的“类名”和分类、字符或字符串数组,一个逻辑或数值向量,或单元阵列的特征向量。一会必须具有相同的数据类型Y或响应变量资源描述

如果一会每个元素是一个字符数组,那么必须对应一个数组的行。

使用“类名”:

  • 指定的顺序之前维对应于类订单。

  • 选择一个子集类排名。例如,假设所有不同的类名称的集合Y{' a ', ' b ', ' c '}。从类等级预测使用的观察“一个”“c”只是,指定“类名”,{' a ', ' c '}

的默认值“类名”所有不同的类名称的集合在吗Y或响应变量资源描述。默认的“类名”价值的数学要求如果响应变量顺序。否则,默认值按字母顺序排序。

例子:“类名”,{' b ', ' g '}

数据类型:分类|字符|字符串|逻辑|||细胞

装箱的箱子数量连续预测,指定为逗号分隔组成的“NumBins”和一个正整数标量。

例子:“NumBins”, 50岁

数据类型:|

先验概率为每个类,指定为以下之一:

  • 特征向量或字符串标量。

    • “经验”确定类类频率响应变量的概率Y资源描述。如果你通过观察权重,fscchi2使用重量计算类概率。

    • “统一”集所有类概率相等。

  • 向量(一个标量值为每个类)。指定的类订单对应的元素“之前”,设置“类名”名称-值参数。

  • 结构年代两个字段。

    • S.ClassNames包含类名相同类型的变量作为响应变量Y资源描述

    • S.ClassProbs包含一个向量对应的概率。

fscchi2规范化的权重在每个类(“重量”)加起来的价值各自的类的先验概率。

例子:“前”、“制服”

数据类型:字符|字符串|||结构体

指标在预测是否使用或丢弃缺失值,指定为逗号分隔组成的“UseMissing”,要么真正的使用或抛弃缺失值的预测排名。

fscchi2认为,(空字符向量),”“(空字符串),<失踪>,<定义>值缺失值。

如果您指定“UseMissing”,真的,然后fscchi2使用缺失值排名。分类变量,fscchi2把缺失的值作为一个额外的类别。连续变量,fscchi2的地方装箱的值在一个单独的本。

如果您指定“UseMissing”,假的,然后fscchi2不使用缺失值排名。因为fscchi2计算重要性分数分别为每个预测,该函数不丢弃整个行值时行部分失踪。为每一个变量,fscchi2使用所有的值没有失踪。

例子:“UseMissing”,真的

数据类型:逻辑

观察体重、指定为逗号分隔组成的“重量”和一个向量的标量值或变量的名称资源描述。每一行的观测函数权重X资源描述与相应的价值权重。的大小权重必须等于中的行数X资源描述

如果您指定输入数据表资源描述,然后权重可以是一个变量的名字资源描述包含一个数字向量。在这种情况下,您必须指定权重作为一个特征向量或字符串标量。例如,如果体重是列向量W资源描述(Tbl.W),然后指定“权重”W”

fscchi2规范化的权重在每个类的值添加到相应的类的先验概率。

数据类型:||字符|字符串

输出参数

全部折叠

指数的预测X资源描述下令预测的重要性,作为一个1 -返回r数字矢量,r是排名的数量预测。

如果fscchi2使用变量的子集资源描述预测,那么函数索引预测仅使用子集。例如,假设资源描述包括10列和你指定的最后5列资源描述通过使用作为预测变量公式。如果idx (3)5,然后第三个最重要的因素是第十列资源描述,这是第五个预测的子集。

预测成绩,作为1 -返回r数字矢量,r是排名的数量预测。

大的得分值表明,相应的预测是很重要的。

  • 如果你使用X指定预测或使用的所有变量资源描述作为预测因子,然后中的值分数同一订单的预测吗X资源描述

  • 如果您指定变量的子集资源描述作为预测因子,然后中的值分数子集的顺序相同。

例如,假设资源描述包括10列和你指定的最后5列资源描述通过使用作为预测变量公式。然后,分数(3)包含8列的得分值资源描述第三因素子集。

算法

全部折叠

排名使用卡方测试单变量特性

  • fscchi2检查是否每个预测变量是独立于响应变量用个人卡方测试。一个小p检验统计量的值表明,相应的预测变量依赖于响应变量,,因此是一个重要的特性。

  • 输出分数日志(p)。因此,大的得分值表明,相应的预测是很重要的。如果一个p值小于每股收益(0),然后输出

  • fscchi2检查装箱后连续变量或离散化变量。您可以指定箱使用的数量“NumBins”名称-值对的论点。

版本历史

介绍了R2020a