主要内容

内核分布

概述

内核分布是随机变量的概率密度函数(PDF)的非参数表示。当参数分布无法正确描述数据时,或者希望避免对数据分发进行假设时,可以使用内核分发。内核分布由平滑功能和带宽值定义,该带宽值控制得到的密度曲线的平滑度。

核密度估计

内核密度估计器是随机变量的估计PDF。对于任何真正的价值X,核密度估计的公式由

F ^ H X = 1 N H σ. 一世 = 1 N K. X - X 一世 H

在哪里X1X2,......,XN是来自未知分发的随机样本,N是样本大小, K. · 是核平滑函数,和H是带宽。

内核平滑函数

核平滑函数定义用于生成pdf的曲线的形状。与直方图类似,核分布使用样本数据构建一个函数来表示概率分布。但与直方图不同的是,直方图将值放入离散的箱子中,核分布将每个数据值的分量平滑函数求和,从而产生一个平滑、连续的概率曲线。下面的图显示了从相同的样本数据生成的直方图和核分布的可视化比较。

直方图代表通过建立箱并将每个数据值放置在适当的箱中来表示概率分布。

SixMPG =(13、15、23日,29日,32;34);图直方图(SixMPG)

图中包含一个轴。轴包含直方图类型的对象。

由于该箱数量方法,直方图产生离散概率密度函数。这可能不适合某些应用程序,例如从拟合分布生成随机数。

或者,内核分布通过为每个数据值创建单独的概率密度曲线来构建pdf,然后对平滑曲线求和。这种方法为数据集创建一个平滑、连续的概率密度函数。

图pdsix = fitdist(sixmpg,'核心'“带宽”4);x = 0:.1:45;ysix = pdf(pdsix,x);plot(x,ysix,“k -”'行宽', 2)%绘制每个单独的pdf并在地块上缩放其外观抓住为了i = 1:6 pd = makedist('普通的'“亩”SixMPG(我),'sigma'4);x y = pdf (pd);y = y / 6;情节(x, y,”乙:“结尾抓住

图中包含一个轴。轴包含7个line类型的对象。

较小的虚线曲线是样本数据中每个值的概率分布,缩放以适合图。较大的固体曲线是整体内核分布六杆数据。内核平滑功能是指在该示例中具有正态分布的那些较小的分量曲线的形状。

您可以为核平滑函数选择几个选项之一。这幅图显示了可用的平滑函数的形状。

%设置绘图规格hname = {'普通的'“epanechnikov”'盒子''三角形'};颜色= {'r''B''G'“米”};行= {' - '' - 。'' - '“:”};%生成每个核平滑函数的样本并绘制数据= [0];数字为了j = 1:4 pd = fitdist(数据,“内核”'核心', hname {j});x = 3: .1:3;x y = pdf (pd);情节(x, y,“颜色”,颜色{j},“线型”,行{j})持有结尾传说(hname)持有

图中包含一个轴。坐标轴包含4个line类型的对象。这些物体代表法线,epanechnikov,方框,三角形。

要了解不同内核平滑功能对由此产生的PDF估计的形状的影响,比较里程数据的曲线(MPG.) 从carbig.mat使用每个可用的内核函数。

加载CARBIG.%设置绘图规格hname = {'普通的'“epanechnikov”'盒子''三角形'};颜色= {'r''B''G'“米”};行= {' - '' - 。'' - '“:”};%生成内核分布对象和绘图数字为了j = 1:4 pd = fitdist(mpg,“内核”'核心', hname {j});x = 10:1:60;x y = pdf (pd);情节(x, y,“颜色”,颜色{j},“线型”,行{j})持有结尾传说(hname)持有

图中包含一个轴。坐标轴包含4个line类型的对象。这些物体代表法线,epanechnikov,方框,三角形。

每个密度曲线使用相同的输入数据,但是应用不同的内核平滑函数来生成PDF。密度估计大致相当,但每个曲线的形状略有不同。例如,框内核产生的密度曲线比其他曲线不太平滑。

带宽

带宽值的选择控制了所得概率密度曲线的平滑度。这个曲线显示了密度估计MPG.数据,使用一个普通的核平滑函数与三个不同的带宽。

%创建内核分发对象加载CARBIG.pd1 = fitdist(英里/加仑,“内核”);pd2 = fitdist(英里/加仑,“内核”“带宽”,1);pd3 = fitdist(mpg,“内核”“带宽”5);%计算每个pdfx = 10:1:60;日元= pdf (pd1 x);y2 = pdf (pd2 x);y3 = pdf (pd3 x);%plot每个pdf绘图(x,y1,“颜色”'r'“线型”' - ')举行绘图(x,y2,“颜色”“k”“线型”“:”)绘图(x,y3,“颜色”'B'“线型”' - ')({传奇'bandwidth =默认''带宽= 1''带宽= 5'})举行

图中包含一个轴。坐标轴包含3个类型为line的对象。这些对象表示BandWidth = Default, BandWidth = 1, BandWidth = 5。

默认带宽,理论上是估计正态分布密度的最佳带宽[1],产生合理平滑的曲线。指定较小的带宽产生非常粗糙的曲线,但显示数据中可能有两个主要峰值。指定较大的带宽产生几乎与内核功能几乎相同的曲线,并且如此平滑,使其模糊了数据的潜在重要特征。

参考文献

鲍曼,A. W.和A. Azzalini。应用平滑技术进行数据分析。纽约:牛津大学出版社,1997。

也可以看看

|

相关的话题