核分布是随机变量的概率密度函数(pdf)的非参数表示。当参数分布不能正确描述数据时,或者当您希望避免对数据的分布做出假设时,您可以使用核分布。核分布由平滑函数和带宽值定义,它控制得到的密度曲线的平滑度。
核密度估计器是随机变量的估计pdf。对于任意实值x,给出核密度估计的公式
在哪里x1,x2、……xn是来自未知分布的随机样本,n为样本量, 是核平滑函数,和h是带宽。
核平滑函数定义用于生成pdf的曲线的形状。与直方图类似,核分布利用样本数据构建一个函数来表示概率分布。但与直方图不同的是,直方图将值放入离散的箱子中,核分布对每个数据值的分量平滑函数进行求和,从而产生一个平滑的、连续的概率曲线。下面的图显示了由相同样本数据生成的直方图和核分布的可视化比较。
直方图通过建立箱子并将每个数据值放入适当的箱子来表示概率分布。
SixMPG =(13、15、23日,29日,32;34);图直方图(SixMPG)
由于这种bin计数方法,直方图产生一个离散的概率密度函数。这可能不适用于某些应用程序,例如从拟合的分布生成随机数。
另外,内核分布通过为每个数据值创建单独的概率密度曲线来构建pdf,然后对平滑曲线进行求和。这种方法为数据集创建了一个平滑的、连续的概率密度函数。
figure pdSix = fitdist(SixMPG,“内核”,“带宽”4);x = 0: .1:45;ySix = pdf (pdSix x);情节(x, ySix,“k -”,“线宽”, 2)%绘制每个单独的pdf,并在图上缩放其外观持有在为I =1:6 pd = makedist(“正常”,“亩”SixMPG(我),“σ”4);x y = pdf (pd);y = y / 6;情节(x, y,”乙:“)结束持有从
较小的虚线是样本数据中每个值的概率分布,按比例拟合图。较大的实心曲线是整体的核分布SixMPG
数据。核平滑函数指的是那些较小的分量曲线的形状,在本例中它们是正态分布的。
您可以从内核平滑函数的几个选项中选择一个。这个图显示了可用平滑函数的形状。
设定plot规格hname = {“正常”“epanechnikov”“盒子”“三角形”};颜色= {“r”“b”‘g’“米”};行= {“- - -”,“-”。,“——”,“:”};%生成每个核平滑函数的样本并绘图数据= [0];数字为J =1:4 pd = fitdist(数据,“内核”,“内核”, hname {j});x = 3: .1:3;x y = pdf (pd);情节(x, y,“颜色”颜色{j},“线型”, {j}行)在结束传奇(hname)从
为了理解不同的核平滑函数对生成的pdf估计的形状的影响,比较里程数据的图(英里/加仑
)carbig.mat
使用每个可用的内核函数。
负载carbig设定plot规格hname = {“正常”“epanechnikov”“盒子”“三角形”};颜色= {“r”“b”‘g’“米”};行= {“- - -”,“-”。,“——”,“:”};%生成内核分布对象并绘图数字为j=1:4 pd = fitdist(MPG,“内核”,“内核”, hname {j});x = 10:1:60;x y = pdf (pd);情节(x, y,“颜色”颜色{j},“线型”, {j}行)在结束传奇(hname)从
每个密度曲线使用相同的输入数据,但应用不同的核平滑函数来生成pdf。密度估计大致可比较,但每条曲线的形状略有不同。例如,盒形核产生的密度曲线比其他的更不平滑。
带宽值的选择控制得到的概率密度曲线的平滑度。这张图显示了对密度的估计英里/加仑
数据,使用正常的核平滑函数与三个不同的带宽。
%创建内核分发对象负载carbigpd1 = fitdist(英里/加仑,“内核”);pd2 = fitdist(英里/加仑,“内核”,“带宽”1);pd3 = fitdist(英里/加仑,“内核”,“带宽”5);计算每个pdfx = 10:1:60;日元= pdf (pd1 x);y2 = pdf (pd2 x);y3 = pdf (pd3 x);%绘制每个pdf情节(x, y₁,“颜色”,“r”,“线型”,“- - -”)举行在情节(x, y2,“颜色”,“k”,“线型”,“:”)情节(x, y3,“颜色”,“b”,“线型”,“——”)({传奇“带宽=违约”,“带宽= 1”,“带宽= 5”})举行从
默认带宽,理论上是估计正态分布密度的最优带宽[1],产生相当平滑的曲线。指定较小的带宽会产生一个非常粗糙的曲线,但揭示了数据中可能存在两个主要峰值。指定一个更大的带宽会产生一条几乎与核函数相同的曲线,而且曲线非常平滑,以至于掩盖了数据中潜在的重要特征。
鲍曼,A. W.和阿扎里尼。应用平滑技术进行数据分析.纽约:牛津大学出版社,1997。