主要内容

内核分配

概述

一个内核分布的非参数表示随机变量的概率密度函数(pdf)。您可以使用一个内核分布参数时不能正确描述数据,或者当你想避免对数据的分布进行假设。内核分布定义为一个平滑函数和一个带宽值,控制产生的密度曲线的平滑度。

核密度估计

核密度估计量是一个随机变量的估计pdf。对于任何真正的价值x核密度估计的公式是由

f ^ h ( x ) = 1 n h = 1 n K ( x x h ) ,

在哪里x1,x2、…xn从一个未知的随机抽样分布,n是样品的尺寸, K ( · ) 是内核平滑函数,h是带宽。

内核平滑函数

内核定义曲线的形状平滑函数用于生成pdf。类似于一个直方图,内核分布建立一个函数来表示使用示例数据的概率分布。但与直方图,使值离散的箱子,一个内核分配金额组件平滑函数为每个数据值来产生一个光滑、连续的概率曲线。下面的情节展示的视觉比较直方图和内核分配产生相同的示例数据。

直方图表示的概率分布建立垃圾箱和适当的本中的每个数据值。

SixMPG =(13、15、23日,29日,32;34);图直方图(SixMPG)

图包含一个坐标轴对象。坐标轴对象包含一个直方图类型的对象。

因为这个本计算方法,直方图产生离散概率密度函数。这可能是不适合某些应用程序,如从安装分布生成随机数。

另外,内核分配构建pdf的创建一个个人为每个数据值概率密度曲线,然后求和光滑的曲线。这种方法创建一个平滑,连续概率密度函数的数据集。

图pdSix = fitdist (SixMPG,“内核”,“宽度”4);x = 0: .1:45;ySix = pdf (pdSix x);情节(x, ySix,“k -”,“线宽”,2)%的阴谋每个外观pdf和规模的阴谋持有我= 1:6 pd = makedist (“正常”,“亩”SixMPG(我),“σ”4);x y = pdf (pd);y = y / 6;情节(x, y,”乙:“)结束持有

图包含一个坐标轴对象。坐标轴对象包含7线类型的对象。

较小的虚线是每个值的概率分布的样本数据,缩放以适合情节。更大的坚实的曲线是整个内核的分布SixMPG数据。内核平滑函数指的是那些更小的组件的形状曲线,正态分布在这个例子。

你可以选择几个内核平滑函数的选择之一。这张图显示了可用的平滑函数的形状。

%设置情节规范hname = {“正常”“epanechnikov”“盒子”“三角形”};颜色= {“r”“b”‘g’“米”};行= {“- - -”,“-”。,“——”,“:”};%生成每个内核平滑函数的样本和阴谋数据= [0];图j = 1:4 pd = fitdist(数据,“内核”,“内核”,hname {j});x = 3: .1:3;x y = pdf (pd);情节(x, y,“颜色”颜色{j},“线型”,{j}行)结束传奇(hname)

图包含一个坐标轴对象。坐标轴对象包含4线类型的对象。这些对象代表正常,epanechnikov,盒子,三角形。

理解的影响不同的内核平滑函数的形状生成的pdf估计,比较块的里程数据(英里/加仑)carbig.mat使用每个可用的内核函数。

负载carbig%设置情节规范hname = {“正常”“epanechnikov”“盒子”“三角形”};颜色= {“r”“b”‘g’“米”};行= {“- - -”,“-”。,“——”,“:”};%生成内核分配对象和阴谋j = 1:4 pd = fitdist(英里/加仑,“内核”,“内核”,hname {j});x = 10:1:60;x y = pdf (pd);情节(x, y,“颜色”颜色{j},“线型”,{j}行)结束传奇(hname)

图包含一个坐标轴对象。坐标轴对象包含4线类型的对象。这些对象代表正常,epanechnikov,盒子,三角形。

每个密度曲线使用相同的输入数据,但是不同的内核平滑函数适用于生成pdf。密度估计大致相似,但每个曲线的形状略有不同。例如,盒子内核产生的密度曲线光滑比其他人少。

带宽

带宽的选择值控制结果的平滑概率密度曲线。这图显示了密度估计英里/加仑数据,使用正常的内核平滑函数与三个不同的带宽。

%创建内核分配对象负载carbigpd1 = fitdist(英里/加仑,“内核”);pd2 = fitdist(英里/加仑,“内核”,“宽度”1);pd3 = fitdist(英里/加仑,“内核”,“宽度”5);%计算每个pdfx = 10:1:60;日元= pdf (pd1 x);y2 = pdf (pd2 x);y3 = pdf (pd3 x);%的阴谋每个pdf情节(x, y₁,“颜色”,“r”,“线型”,“- - -”)举行情节(x, y2,“颜色”,“k”,“线型”,“:”)情节(x, y3,“颜色”,“b”,“线型”,“——”)({传奇“带宽=违约”,“带宽= 1”,“带宽= 5”})举行

图包含一个坐标轴对象。坐标轴对象包含3线类型的对象。这些对象代表带宽=违约,带宽= 1,带宽= 5。

默认的带宽,这是理论上最优估计密度为正态分布[1],产生一个合理的光滑曲线。指定一个较小的带宽会产生一个很粗略的曲线,但显示,数据可能会有两个主要的山峰。指定一个更大的带宽产生曲线几乎相同的内核函数,和非常光滑,它掩盖了潜在的重要特性数据。

引用

[1]鲍曼,a·W。,and A. Azzalini.应用平滑技术进行数据分析。纽约:牛津大学出版社有限公司,1997年。

另请参阅

|

相关的话题