主要内容

内核分配

概述

核分布是随机变量的概率密度函数(pdf)的非参数表示。当参数分布不能正确描述数据时,或者当您希望避免对数据的分布进行假设时,可以使用内核分布。核分布由平滑函数和带宽值定义,带宽值控制得到的密度曲线的平滑度。

核密度估计器

核密度估计器是一个随机变量的估计pdf。的任何实值x时,核密度估计器的公式为

f h x 1 n h 1 n K x x h

在哪里x1x2、……xn是来自未知分布的随机样本,n是样本容量, K · 是核平滑函数,和h是带宽。

核平滑函数

核平滑函数定义了用于生成pdf的曲线的形状。类似于直方图,内核分布构建了一个函数来表示使用样本数据的概率分布。但与直方图不同的是,它将值放入离散的箱子中,核分布将每个数据值的分量平滑函数相加,以产生平滑、连续的概率曲线。下面的图显示了从相同的示例数据生成的直方图和内核分布的可视化比较。

直方图通过建立箱子并将每个数据值放在适当的箱子中来表示概率分布。

SixMPG = [13;15;23;29;32;34];图直方图(SixMPG)

图中包含一个轴。坐标轴包含一个直方图类型的对象。

由于这种箱子计数方法,直方图产生了一个离散的概率密度函数。这可能不适用于某些应用,例如从拟合分布生成随机数。

或者,内核分布通过为每个数据值创建单独的概率密度曲线来构建pdf,然后对平滑曲线求和。这种方法为数据集创建一个平滑、连续的概率密度函数。

数字pdSix = fitdist(SixMPG,“内核”“带宽”4);X = 0:.1:45;ySix = pdf(pdSix,x);情节(x, ySix,“k -”“线宽”, 2)绘制每个单独的pdf并缩放其在图上的外观持有I =1:6 pd = makedist(“正常”“亩”SixMPG(我),“σ”4);Y = pdf(pd,x);Y = Y /6;情节(x, y,”乙:“结束持有

图中包含一个轴。坐标轴包含7个line类型的对象。

较小的虚线曲线是样本数据中每个值的概率分布,按比例缩放以适应图。较大的实心曲线是总体的核分布SixMPG数据。核平滑函数指的是那些较小的分量曲线的形状,在本例中它们具有正态分布。

您可以选择核平滑函数的几个选项之一。该图显示了可用平滑函数的形状。

%设定地块规格姓名= {“正常”“epanechnikov”“盒子”“三角形”};颜色= {“r”“b”‘g’“米”};Lines = {“- - -”“-”。“——”“:”};生成每个核平滑函数和图的样本数据= [0];数字J =1:4 pd = fitdist(数据,“内核”“内核”, hname {j});X = -3:.1:3;Y = pdf(pd,x);情节(x, y,“颜色”颜色{j},“线型”, {j}行)结束传奇(hname)

图中包含一个轴。坐标轴包含4个line类型的对象。这些物体代表了正法,epanechnikov,盒子,三角形。

为了理解不同的核平滑函数对结果pdf估计形状的影响,比较里程数据的图(英里/加仑)carbig.mat使用每个可用的内核函数。

负载carbig%设定地块规格姓名= {“正常”“epanechnikov”“盒子”“三角形”};颜色= {“r”“b”‘g’“米”};Lines = {“- - -”“-”。“——”“:”};生成内核分布对象和图形数字j=1:4 pd = fitdist(MPG,“内核”“内核”, hname {j});X = -10:1:60;Y = pdf(pd,x);情节(x, y,“颜色”颜色{j},“线型”, {j}行)结束传奇(hname)

图中包含一个轴。坐标轴包含4个line类型的对象。这些物体代表了正法,epanechnikov,盒子,三角形。

每个密度曲线使用相同的输入数据,但应用不同的核平滑函数来生成pdf。密度估计大致相当,但每条曲线的形状略有不同。例如,盒核产生的密度曲线比其他的曲线更不平滑。

带宽

带宽值的选择控制了得到的概率密度曲线的平滑度。这张图显示了密度估计值英里/加仑数据,使用三种不同带宽的普通核平滑函数。

创建内核分发对象负载carbigpd1 = fitdist(MPG,“内核”);pd2 = fitdist(MPG,“内核”“带宽”1);pd3 = fitdist(MPG,“内核”“带宽”5);计算每个pdfX = -10:1:60;y = pdf(pd1,x);Y2 = pdf(pd2,x);Y3 = pdf(pd3,x);绘制每个pdf情节(x, y₁,“颜色”“r”“线型”“- - -”)举行情节(x, y2,“颜色”“k”“线型”“:”)情节(x, y3,“颜色”“b”“线型”“——”)({传奇'带宽=默认值''带宽= 1''带宽= 5'})举行

图中包含一个轴。坐标轴包含3个line类型的对象。这些对象分别代表BandWidth = Default, BandWidth = 1, BandWidth = 5。

默认带宽,理论上是估计正态分布密度的最佳带宽[1],产生合理平滑的曲线。指定较小的带宽会产生非常粗略的曲线,但会显示数据中可能有两个主要的峰值。指定更大的带宽会产生与核函数几乎相同的曲线,而且非常平滑,以至于它掩盖了数据的潜在重要特征。

参考文献

[1]鲍曼,a.w.和A.阿扎里尼。平滑技术在数据分析中的应用.纽约:牛津大学出版社,1997年。

另请参阅

|

相关的话题