ksdensity

核平滑函数估计单变量和双变量数据

描述

[F] = ksdensity(X返回的概率密度估计,F,对于在载体或两列的矩阵的采样数据X。该估计是基于一个正常核函数,并在等距间隔的点被评估,,即覆盖数据的范围Xksdensity估计的100个点对单变量数据,或900点数据二元密度。

ksdensity在最佳状态下连续分布的样品。

[F] = ksdensity(X指定点() 评估F。这里,包含相同的值。

[F] = ksdensity(___名称,值使用由一个或多个名称 - 值对的参数除了任何的在前面的语法的输入参数指定的附加选项。例如,您可以定义函数类型ksdensity求值,如概率密度,累积概率,幸存者的功能,等等。或者你也可以指定平滑窗口的带宽。

[FBW] = ksdensity(___也返回核平滑窗口的带宽,BW。默认带宽是正常密度的优化。

ksdensity(___绘制的核平滑函数估计。

ksdensity(斧头___利用轴与手柄地块的结果,斧头,而不是当前的轴返回由GCA

例子

全部收缩

生成从两个正态分布的混合物的样本数据集。

RNG('默认'%用于重现X = [randn(30,1);5 + randn(30,1)];

画出估算的浓度。

并[f,Ⅺ] = ksdensity(X);图情节(XI中,f);

密度估计示出了样品的双峰。

产生从半正态分布非负样本数据集。

RNG('默认'%用于重现PD = makedist('HalfNormal''亩',0,“西格玛”,1);X =随机(PD,100,1);

概率密度函数与两个不同的边界校正方法,对数变换和反射估算,通过使用'BoundaryCorrection'名称 - 值对的参数。

PTS = linspace(0,5,1000);%点来评估估计[F1,XI1] = ksdensity(X,PTS,'万博1manbetx支持''正');[F2,XI2] = ksdensity(X,PTS,'万博1manbetx支持''正''BoundaryCorrection''反射');

画出两个估计的PDF文件。

情节(XI1,F1,XI2,F2)LGD =图例(“日志”'反射');标题(LGD,“边界校正方法”)XL = XLIM;XLIM([XL(1)-0.25 XL(2)])

ksdensity使用时,您指定正或有限支持的边界校正方法。万博1manbetx默认的边界校正方法是登录转型。什么时候ksdensity转换背部支撑,介绍了万博1manbetx1 / X长期在内核密度估计。因此,估计有接近峰值x = 0的。在另一方面,反射方法不会导致的边界附近不希望的峰值。

加载样本数据。

加载医院

计算并绘制估计CDF在指定的一组值进行评价。

PTS =(分钟(hospital.Weight):2:最大(hospital.Weight));图()ECDF(hospital.Weight)保持并[f,XI,BW] = ksdensity(hospital.Weight,PTS,'万博1manbetx支持''正'...'功能''CDF');图(十一,F,'-G''行宽',2)图例(“经验CDF”'内核-BW:默认''位置''西北')xlabel(“患者体重”)ylabel(“估计CDF”

ksdensity似乎顺利累积分布函数估计太多。具有较小带宽的估计可能会产生更紧密的估计与经验累积分布函数。

返回平滑窗口的带宽。

BW
BW = 0.1070

绘制使用较小的带宽累积分布函数估计。

并[f,Ⅺ] = ksdensity(hospital.Weight,PTS,'万博1manbetx支持''正'...'功能''CDF''带宽',0.05);图(十一,F,'--R''行宽',2)图例(“经验CDF”'内核-BW:默认'“内核体重:0.05”...'位置''西北')保持

ksdensity估计与较小的带宽经验累积分布函数更好匹配。

加载样本数据。

加载医院

绘制所估计的CDF在50点等距间隔的点进行评价。

图()ksdensity(hospital.Weight,'万博1manbetx支持''正''功能''CDF'...'为NumPoints',50)xlabel(“患者体重”)ylabel(“估计CDF”

生成从与平均3的指数分布的样本数据。

RNG('默认'%用于重现X =随机('EXP',3,100,1);

创建指示删失逻辑载体。在此,寿命比10再观测审查。

T = 10;经社=(X> T);

计算并绘制估计密度函数。

图ksdensity(X,'万博1manbetx支持''正'“截尾”,经社);

计算并绘制幸存者功能。

图ksdensity(X,'万博1manbetx支持''正'“截尾”,经社,...'功能''幸存者');

计算和绘制累积风险的功能。

图ksdensity(X,'万博1manbetx支持''正'“截尾”,经社,...'功能''cumhazard');

生成两个正态分布的混合物,并绘制在指定的一组概率值的所估计的逆累积分布函数。

RNG('默认'%用于重现X = [randn(30,1);5 + randn(30,1)];PI = linspace(0.01,.99,99);图ksdensity(X,P1,'功能''ICDF');

生成两个正态分布的混合物。

RNG('默认'%用于重现X = [randn(30,1);5 + randn(30,1)];

返回平滑窗口的带宽的概率密度估计。

并[f,XI,BW] = ksdensity(X);BW
BW = 1.5141

默认带宽是最佳的正常密度。

画出估算的浓度。

图情节(XI中,f);xlabel(“十一”)ylabel('F')保持

使用增加的带宽值绘制的密度。

并[f,Ⅺ] = ksdensity(X,'带宽',1.8);图(十一,F,'--R''行宽'1.5)

更高的带宽进一步地平滑密度估计,这可能会掩盖分布的某些特征。

现在,绘制使用减少的带宽值的密度。

并[f,Ⅺ] = ksdensity(X,'带宽',0.8);图(十一,F,'-.k''行宽'1.5)图例('BW =默认''BW = 1.8''BW = 0.8')保持

较小的带宽平滑的密度估计值更小,这夸大了样品的一些特性。

创建在该评估密度点的一个两列向量。

gridx1 = -0.25:0.05:1.25;gridx2 = 0:0.1:15;[X1,X2] = meshgrid(gridx1,gridx2);X1 = X1(:);X2 = X2(:);XI = [X1 X2];

产生从二元正态分布的混合物包含随机数的30×2矩阵。

RNG('默认'%用于重现X = [0 + 0.5 *兰特(20,1)5 + 2.5 *兰特(20,1);0.75 + 0.25 *兰特(10,1)8.75 + 1.25 *兰特(10,1)];

画出样品的数据的估计密度。

图ksdensity(X,XI);

输入参数

全部收缩

对于其中的样本数据ksdensity回报F值,指定为列向量或两列的矩阵。使用单变量数据的列向量,以及用于二元数据的两列的矩阵。

例:并[f,Ⅺ] = ksdensity(x)的

数据类型:|

点,其评估F,指定为矢量或两列的矩阵。对于单变量数据,可以是行或列向量。返回的输出的长度F等于点的数目

例:PTS =(0:1:25);ksdensity(X,PTS);

数据类型:|

轴手柄图ksdensity阴谋,指定为把手。

例如,如果H是一个数字的句柄,然后ksdensity可以绘制该图如下所示。

例:ksdensity(H,X)

名称 - 值对参数

指定可选的用逗号分隔的对名称,值参数。名称是参数的名称和是对应的值。名称必须出现引号内。您可以按照任何顺序指定多个名称和值对参数名1,值1,...,NameN,值N

例:'截尾',经社, '核心', '三角形', '为NumPoints',20, '功能', 'CDF'该指定ksdensity通过在20评估等间隔的点覆盖的数据的范围,使用三角内核平滑函数和占载体中的截尾数据信息估计所述CDFCENS

内核平滑窗口的带宽,这是一个点的在数目的函数X,指定为逗号分隔的一对组成的'带宽'和标量值。如果样本数据是二元,带宽也可以是一个两元素矢量。默认值是最佳估计正常密度[1],但你可能想选择一个或大​​或小的值,以平滑更多或更少。

如果您指定'BoundaryCorrection'“日志”(默认)和'万博1manbetx支持'因为无论是'正'或载体[L C]ksdensity界数据转换为可通过使用对数变换无限。的价值'带宽'是在变换值的比例。

例:'带宽',0.8

数据类型:|

边界校正方法,指定为逗号分隔的一对组成的'BoundaryCorrection'“日志”要么'反射'

描述
“日志”

ksdensity转换界数据X通过下面的变换之一是无界的。然后,它把密度估计后回到原来的规模有限。

  • 对于单变量数据,如果您指定“万博1manbetx支持”,“积极”, 然后ksdensity适用日志(X)

  • 对于单变量数据,如果您指定'万博1manbetx支持',[L C],其中大号ü是数字标量和→<ù, 然后ksdensity适用日志((X-L)/(U-X))

  • 对于双变量数据,ksdensity转换的每一列X与单变量数据以同样的方式。

的价值'带宽'BW输出是经变换的值的标度。

'反射'

ksdensity增强件通过将边界附近的反射数据有界的数据,那么它返回对应于原始支承估计。万博1manbetx有关详细信息,请参阅反射法

ksdensity仅适用边界校正当您指定'万博1manbetx支持'作为以外的值“无界”

例:'BoundaryCorrection', '反射'

指示哪个条目被审查,指定为逗号分隔的一对组成的逻辑矢量“截尾”和二进制值的向量。0值表示没有截尾,1表示观察审查。默认是没有终检。此名称 - 值对只适用于单变量的数据。

例:'截尾',censdata

数据类型:合乎逻辑

函数来估计,指定为逗号分隔的一对组成的'功能'与下列情况之一。

描述
'PDF' 概率密度函数。
'CDF' 累积分布函数。
'ICDF'

逆累积分布函数。ksdensity计算中的值的估计的逆CDFX,且评估其在指定的概率值PI

此值仅适用于单变量数据是有效的。

'幸存者' 存活函数。
'cumhazard'

累积风险的功能。

此值仅适用于单变量数据是有效的。

例:'功能''ICDF'

类型的内核平滑的,指定为逗号分隔的一对组成的'核心'与下列情况之一。

  • '正常'(默认)

  • '框'

  • '三角形'

  • 'epanechnikov'

  • 内核函数是一个自定义或内置功能。指定的函数作为函数手柄(例如,@myfunction要么@normpdf),或者作为一个字符向量或标量的字符串(例如,'MyFunction的'要么'normpdf')。软件调用与作为数据值和位置之间的距离,其中所述密度被评估的阵列一个参数指定的函数。函数必须返回包含内核函数的对应值相同的尺寸的阵列。

    什么时候'功能''PDF',内核函数返回密度值。否则,它返回累积概率值。

    指定自定义内核时'功能''ICDF'返回一个错误。

对于双变量数据,ksdensity应用相同的内核每个维度。

例:“核心”,“盒子”

在等距点数,指定为逗号分隔的一对组成的'为NumPoints'和标量值。此名称 - 值对只适用于单变量的数据。

例如,对于一个内核在采样数据,输入的范围内的80个间隔的点平滑指定功能的估计:

例:'为NumPoints',80

数据类型:|

万博1manbetx支持密度,指定为逗号分隔的一对组成的'万博1manbetx支持'与下列情况之一。

描述
“无界” 默认。允许密度,延长了整个实线。
'正' 限制密度为正值。
两个元素的向量,[L C] 给用于支撑密度的有限上限和下限。万博1manbetx此选项仅适用于单变量的样本数据。
二对二矩阵,[L1 L2;U1 U2] 给用于支撑密度的有限上限和下限。万博1manbetx第一行包含下限和所述第二行中包含的上限。此选项仅适用于双变量的样本数据。

对于双变量数据,'万博1manbetx支持'可以指定为正,无界的,或有界变量的组合[0 -Inf;天道酬勤天道酬勤]要么[0 L,天道酬勤ù]

例:“万博1manbetx支持”,“积极”

例:'万博1manbetx支持',[0 10]

数据类型:||烧焦|

函数用于创建内核密度图,指定为逗号分隔的一对组成的'PlotFcn'与下列情况之一。

描述
'冲浪' 3-d阴影面积,使用创建的冲浪
'轮廓' 等高线图,用创建轮廓
'plot3' 3-d线图,使用创建的plot3
'surfc' 下一个3-d等高线图的阴影面积,使用创建的surfc

这个名称 - 值对是仅适用于二元样本数据。

例:'PlotFcn', '轮廓'

权重的样本数据,指定为逗号分隔的一对组成的“权重”和长度的矢量尺寸(X,1),其中X是样品的数据。

例:'权重',XW

数据类型:|

输出参数

全部收缩

估计函数值,返回其长度等于点的数目的向量要么

评估点处ksdensity计算F时,返回作为载体或两列的矩阵。对于单变量数据,默认为覆盖数据的范围为100等间距点X。对于二元数据,默认值是900等间距点使用创建的meshgrid从在每个维度30等距点。

平滑窗口的带宽,返回一个标量值。

如果您指定'BoundaryCorrection'“日志”(默认)和'万博1manbetx支持'因为无论是'正'或载体[L C]ksdensity界数据转换为可通过使用对数变换无限。的价值BW是在变换值的比例。

更多关于

全部收缩

内核分配

内核分配是随机变量的概率密度函数(pdf)的非参数表示。当你想避免对数据分布的假设您可以使用一个内核分配时,参数分布不能正确地描述数据,或。内核分布由平滑函数和一个带宽值,该控制所得到的密度曲线的平滑性所定义。

内核密度估计是一个随机变量的估计PDF格式。对于任何真正的价值X,内核密度估计公式由下式给出

F ^ H X = 1 ñ H Σ 一世 = 1 ñ ķ X - X 一世 H

哪里X1X2,...,Xñ是从一个未知分布的随机样本,ñ为样本大小, ķ · 是内核的平滑函数和H是带宽。

核估计的累积分布函数(CDF),对任何真正的价值X, 是(谁)给的

F ^ H X = - X F ^ H Ť d Ť = 1 ñ Σ 一世 = 1 ñ G X - X 一世 H

哪里 G X = - X ķ Ť d Ť

有关详细信息,请参阅内核分配

反射法

反射法是正确查找核密度估计时的随机变量具有有界支撑的边界校正方法。万博1manbetx如果您指定'BoundaryCorrection', '反射'ksdensity使用反射法。该方法增强件通过将边界附近的反射数据界定数据,并且估计的PDF。然后,ksdensity返回对应适当正常化原来支持PDF估计,使估计的PDF文件在原有支持积分等于一。万博1manbetx

如果另外指定'万博1manbetx支持',[L C], 然后ksdensity发现核估计如下。

  • 如果'功能''PDF',那么内核密度估计是

    F ^ H X = 1 ñ H Σ 一世 = 1 ñ [ ķ X - X 一世 - H + ķ X - X 一世 H + ķ X - X 一世 + H ] 对于大号Xü

    哪里 X 一世 - = 2 大号 - X 一世 X 一世 + = 2 ü - X 一世 X一世是个一世个样本的数据。

  • 如果'功能''CDF',那么CDF核估计是

    F ^ H X = 1 ñ Σ 一世 = 1 ñ [ G X - X 一世 - H + G X - X 一世 H + G X - X 一世 + H ] - 1 ñ Σ 一世 = 1 ñ [ G 大号 - X 一世 - H + G 大号 - X 一世 H + G 大号 - X 一世 + H ] 对于大号Xü

  • 以获取内核估计器,用于逆CDF,一个幸存者函数,或一个累积危险功能(当'功能''ICDF''幸存者', 要么'cumhazrd'ksdensity同时使用 F ^ H X F ^ H X

如果另外指定'万博1manbetx支持''正'要么[0 INF], 然后ksdensity通过更换发现核估计[L C][0 INF]在上面的等式。

参考

[1]鲍曼,A. W.,和A. Azzalini。应用平滑技术数据分析。纽约:牛津大学出版公司,1997。

[2]山,P.D。“分布函数的核估计”。理论与方法 - 统计通讯。第14卷,第。3,1985年,第605-620。

[3]琼斯,M. C.“核密度估计的简单边界校正”。统计与计算。卷。3,第3期,1993,第135-146。

[4]西尔弗曼,B.W。密度估计统计和数据分析。查普曼和霍尔/ CRC,1986。

扩展功能

R2006a前推出