이페이지의최신내용은아직번역되지않았습니다。최신내용은영문으로볼수있습니다。

데이터필터링및평활화하기

데이터평활화및필터링소개

光滑的함수를사용하여응답변수데이터를평활화할수있습니다。이동평균,사비츠키 - 골레이,그리고가중치와로버스트성을사용하거나사용하지않는국소회귀(洛斯黄土rlowessrloess)방법을선택적으로사용할수있습니다。

이동평균필터링

이동평균필터는각데이터점을범위내에정의된이웃데이터점의평균으로대체하여데이터를평활화합니다。이과정은평활화의응답변수가다음과같은차분방정식으로주어지는저역통과필터링과동일합니다。

ÿ 小号 一世 = 1 2 ñ + 1 ÿ 一世 + ñ + ÿ 一世 + ñ - 1 + ... + ÿ 一世 - ñ

여기서y<小号ub>小号(ⅰ)는一世번째데이터점에대한평활화된값이고,N은y<小号ub>小号(我)의양쪽에있는이웃데이터점의개수이고,2 n + 1은범위입니다。

曲线拟合工具箱™에서사용하는이동평균평활화방법은다음규칙을따릅니다。

  • 범위는홀수여야합니다。

  • 평활화할데이터점은범위의중앙에있어야합니다。

  • 양쪽에지정된이웃의개수를수용할수없는데이터점의경우범위가조정되어야합니다。

  • 끝점은범위가정의될수없으므로평활화되지않습니다。

过滤器함수를사용하여위에제시된것과같은차분방정식을구현할수있습니다。그러나끝점이처리되는방식때문에툴박스의이동평균결과는过滤器가반환하는결과와다릅니다。자세한내용은差分方程与滤波(MATLAB)을참조하십시오。

5예를들어,범위가인이동평균필터를사용하여데이터를평활화한다고가정하겠습니다。위에서설명한규칙을사용하면ÿ小号4개의처음의요소는다음과같이지정됩니다。

ÿ<小号ub>小号(1)= Y(1)Y<小号ub>小号(2) = (y(1)+y(2)+y(3))/ 3y<小号ub>小号(3)=(Y(1)+ Y(2)+ Y(3)+ Y(4)+ Y(5))/ 5 Y<小号ub>小号(4)= (y y (2) + (3) + (4) + y (5) + y (6)) / 5

ÿ小号(1)ÿ小号(2),...,ÿ小号(结束)는정렬후의데이터순서를가리키며,이는원래순서와같지않을수있습니다。

아래에는생성된데이터세트의처음4개의데이터점에대한평활화된값과범위가나와있습니다。

플롯(一个)는첫번째데이터점은범위를생성할수없으므로평활화되지않았음을보여줍니다。플롯(b)中는두번째데이터점은범위3을사용하여평활화되었음을보여줍니다。플롯(C)(d)는평활화된값을계산하는데범위5가사용되었음을보여줍니다。

사비츠키——골레이필터링

사비츠키 - 골레이필터링은일반화된이동평균이라고볼수있습니다。필터계수는지정된차수의다항식을사용해비가중선형최소제곱피팅을수행하여도출합니다。이러한이유때문에사비츠키 - 골레이필터를디지털평활화다항식필터또는최소제곱평활화필터라고도합니다。보다차수가높은다항식을사용하면데이터특징의감쇠없이높은정도의매끄러움을달성할수있습니다。

사비츠키——골레이필터링방법은주파수데이터또는분광(피크)데이터에서자주사용됩니다。주파수데이터의경우,이방법은신호의고주파성분을보존하는데효과적입니다。분광데이터의경우,이방법은선너비와같은피크의높은순간들을보존하는데효과적입니다。사비츠키——골레이필터와비교할때이동평균필터는신호의고주파성분중상당부분을제거하며중심과같이피크의낮은순간들만보존할수있습니다。그러나사비츠키——골레이필터링은잡음제거측면에서는이동평균필터보다덜효과적입니다。

曲线拟合工具箱에서사용하는사비츠키 - 골레이평활화방법은다음규칙을따릅니다。

  • 범위는홀수여야합니다。

  • 다항식차수는범위보다작아야합니다。

  • 데이터점은균일한간격을가질필요가없습니다。

    일반적으로사비츠키——골레이필터링에서는예측변수데이터가균일한가격을가져야합니다。그러나曲线拟合工具箱알고리즘은불균일한간격을지원합니다。따라서균일한간격을갖는데이터를만들기위한추가적인필터링단계를수행할필요가없습니다。

아래에표시된플롯은생성된가우스데이터와사비츠키 - 골레이방법을사용하여시도한몇차례의평활화결과를보여줍니다。데이터에는잡음이매우많으며피크너비는넓은것에서좁은것까지다양합니다。범위는데이터점개수의5%입니다。

플롯(一个)는잡음이있는데이터를보여줍니다。평활화된결과를보다쉽게비교하기위해플롯(b)中(C)는잡음이추가되지않은데이터를보여줍니다。

플롯(b)中는2차다항식을사용하여평활화한결과를보여줍니다。이방법은좁은피크에대해낮은성능을보이는것을알수있습니다。플롯(C)는4차다항식을사용하여평활화한결과를보여줍니다。일반적으로고차다항식은좁은피크의높이와너비를더정확하게포착하지만넓은피크를평활화하는데는효과적이지않습니다。

국소회귀평활화

洛斯와黄土

“洛斯”와“黄土”라는이름은”국소가중산점도플롯평활화(局部加权散点图平滑)”라는용어에서파생되었습니다。두방법모두국소가중선형회귀를사용하여데이터를평활화합니다。

이동평균방법과마찬가지로각각의평활화된값은범위내에정의된이웃데이터점을사용하여결정되기때문에이평활화과정은국소적이라고간주됩니다。범위내에포함된데이터점에대해회귀가중치함수가정의되기때문에이과정은가중치가적용됩니다。회귀가중치함수외에도,로버스트가중치함수를사용하면이과정이이상값에대한저항력을갖도록만들수있습니다。마지막으로,각방법은회귀에서사용되는모델에따라구분됩니다。LOWESS는1차다항식을사용하고黄土는2차다항식을사용합니다。

曲线拟合工具箱에서사용하는국소회귀평활화방법은다음규칙을따릅니다。

  • 범위는짝수또는홀수일수있습니다。

  • 범위를데이터세트에있는데이터점의총개수의비율로지정할수있습니다。예를들어,범위0.1은데이터점의10%를사용합니다。

국소회귀방법

국소회귀평활화과정은각데이터점에대해다음단계를따릅니다。

  1. 범위안에있는각데이터점에대해<小号pan class="emphasis">회귀가중치를계산합니다。가중치는다음과같은삼중큐브함수로지정됩니다。

    w ^ 一世 = 1 - | X - X 一世 d X | 3 3

    X는평활화할응답변수값과관련있는예측변수값이고,X<小号ub>一世는범위에의해정의된X의최근접이웃이고,d(x)的는가로좌표값을따라범위내에서X로부터가장멀리떨어져있는예측변수값까지의거리입니다。가중치는다음과같은특징을갖습니다。

    • 평활화할데이터점은가장큰가중치를갖고피팅에가장큰영향을줍니다。

    • 범위밖에있는데이터점은가중치0을갖고피팅에영향을주지않습니다。

  2. 가중선형최소제곱회귀가수행됩니다。洛斯의경우,회귀에서1차다항식이사용됩니다。2黄土의경우,회귀에서차다항식이사용됩니다。

  3. 평활화된값은관심예측변수값에서의가중회귀로지정됩니다。

평활화계산에서사용되는평활화된데이터점양쪽의이웃데이터점의개수가동일한경우,가중치함수는대칭입니다。그러나평활화된데이터점을기준으로이웃점의개수가대칭이아니면가중치함수는대칭이아닙니다。이동평균평활화과정과달리범위는바뀌지않습니다。예를들어,가장작은예측변수값을갖는데이터점을평활화할경우가중치함수의형태는절반만큼잘리게되고,범위에서가장왼쪽에있는데이터점이가장큰가중치를가지며,모든이웃점은평활화된값의오른쪽에있게됩니다。

아래에는31개데이터점범위에대한끝점의가중치함수와내점의가중치함수가나와있습니다。

5아래에는범위로洛斯방법을사용했을때,생성된데이터세트의처음4개데이터점에대한평활화된값과그에해당하는회귀가나와있습니다。

평활화과정이하나의데이터점에서다음데이터점으로진행될때범위가바뀌지않는다는것을알수있습니다。그러나최근접이웃의개수에따라서는회귀가중치함수가평활화할데이터점을기준으로대칭이아닐수도있습니다。구체적으로보면,플롯(一个)(b)中는비대칭가중치함수를사용하고플롯(C)(d)는대칭가중치함수를사용합니다。

黄土방법의경우,평활화된값이2차다항식에의해생성된다는점을제외하면그래프가동일하게나타날것입니다。

로버스트국소회귀

데이터에이상값이포함된경우,평활화된값이왜곡되어대부분의이웃데이터점의동작을반영하지않을수있습니다。이문제를극복하려면적은비율의이상값에인해영향을받지않는로버스트절차를사용하여데이터를평활화하면됩니다。이상값에대한설명은잔차분석항목을참조하십시오。

曲线拟合工具箱는LOWESS평활화방법과黄土평활화방법을위한로버스트버전을제공합니다。로버스트방법에는이상값에대한저항력을갖는로버스트가중치에대한추가적인계산이포함됩니다。로버스트평활화절차는다음단계를따릅니다。

  1. 위섹션에서설명한평활화절차로부터잔차를계산합니다。

  2. 범위안에있는각데이터점에대해<小号pan class="emphasis">로버스트가중치를계산합니다。가중치는다음과같은겹제곱함수로지정됩니다。

    w ^ 一世 = { 1 - [R 一世 / 6 中号 一个 d 2 2 | [R 一世 | < 6 中号 一个 d 0 | [R 一世 | 6 中号 一个 d

    여기서r<小号ub>一世는회귀평활화절차에의해생성된我번째데이터점의잔차이고,MAD는잔차의중앙값절대편차로,다음과같이표현됩니다。

    中号 一个 d = 中位数 | [R |

    중앙값절대편차는잔차가얼마나넓게퍼져있는지에대한측도입니다。[R<小号ub>一世가6MAD보다작으면로버스트가중치는1에가깝습니다。[R<小号ub>一世가6疯狂보다크면로버스트가중치는0이고여기에해당하는데이터점은평활화계산에서제외됩니다。

  3. 로버스트가중치를사용하여데이터를다시평활화합니다。최종평활화된값은국소회귀가중치와로버스트가중치양쪽을모두사용하여계산됩니다。

  4. 총5회의반복에서위의두단계를반복합니다。

아래에는단일이상값을포함하는생성된데이터세트에대해LOWESS절차의평활화결과와로버스트LOWESS절차의결과가비교되어있습니다。두절차의범위는모두11개데이터점입니다。

플롯(一个)는이상값이몇몇최근접이웃에대한평활화된값에영향을준다는것을보여줍니다。플롯(b)中는이상값의잔차가6MAD보다큼을나타냅니다。따라서이데이터점에대한로버스트가중치는0입니다。플롯(C)는이상값이웃에있는평활화된값이대부분의데이터를반영한다는것을보여줍니다。

예:데이터평활화하기

count.dat의데이터를불러옵니다。

负载count.dat

24x3배열计数에는하루동안세곳의교차로에서집계된시간당교통량이포함되어있습니다。

먼저5시간범위를갖는이동평균필터를사용하여모든데이터를선형인덱스를기준으로한번에평활화합니다。

c =光滑(count (:));C1 =重塑(c, 24岁,3);

원래데이터와평활화된데이터를플로팅합니다。

次要情节(1,1)情节(统计,“:”);抓住情节(C1,“-”);标题(“平滑C1(所有数据)”)

둘째,동일한필터를사용하여데이터의각열을개별적으로평활화합니다。

C2 = 0(24日3);对于I = 1:3, C2(:,I) =光滑(count(:,I));结束

이번에도원래데이터와평활화된데이터를플로팅합니다。

副区(3,1,2)图(计数, ':');保持在地块(C2, ' - ');标题( '平滑C2(各列)')

두평활화된데이터세트사이의차이를플로팅합니다。

subplot(3,1,3) plot(C2 - C1,'o-') title('Difference C2 - C1')

3열평활화에서추가적인끝점영향이있는것을볼수있습니다。

예:黄土와로버스트黄土를사용하여데이터평활화하기

이상값을포함하는잡음이있는데이터를만듭니다。

x = 15 *兰德(150 1);y = sin(x) + 0.5*(rand(size(x))-0.5);y(装天花板(长度(x) *兰特(2,1)))= 3;

범위10%를갖는黄土방법과rloess방법을사용하여데이터를평활화합니다。

yy1 =光滑(x, y, 0.1,“黄土”);yy2 =光滑(x, y, 0.1,“rloess”);

원래데이터와평활화된데이터를플로팅합니다。

[XX,IND] =排序(X);副区(2,1,1)情节( 'B' XX,Y(IND),,XX,YY1(IND), 'R-')集(GCA, 'YLim',[ -  1.5 3.5])图例('原始数据', '黄土 ' '' ... '的位置', 'NW')副区(2,1,2)图(XX,Y(IND), 'b',' 使用平滑后的数据',XX,ÿÿ2(一世nd),'r-') set(gca,'YLim',[-1.5 3.5]) legend('Original Data','Smoothed Data Using ''rloess''',... 'Location','NW')

로버스트방법에서이상값이더적은영향을주는것을알수있습니다。

참고항목

관련항목