모델의예측성능평가및및

交叉验证은아직훈련하지않은새로운이터셋에에머신러닝알고리즘의예측성능을가하는하는사용되는모델가기법기법。기존의데이터셋을을분할,이중일부일부사용하여알고리즘을시키고나머지이터를를테스트사용합니다。

각각각각交叉验证라운드에서기존의데이터셋데훈련세트테스트세트로임의분할하게됩니다。이어서훈련훈련세트사용용지도학습알고리즘을훈련시키고테스트세트사용를성능을가합니다이과정을을몇차례반복,평균交叉验证오차가성능지표로사용용。

왜交叉验证이중요중요할까?

이복잡하거나시킬때알고리즘과적합하거나과소적합하지것것것것것것것것것것것것것것것것。훈련세트와테스트세트적절히선택해야이러한해야위험을줄일있습니다。그러나학습결과와유효성를를모두화하도록이터셋을을분할하기하기는는는터셋을분할하기는는그래서交叉验证을을활용하는것。交叉验证은은모델에맞는최적의알고리즘을찾을수있도록있도록데터다양하게하게분할하는하는여러지다양하게제공제공여러지기법을을제공

또한交叉验证은아직훈련에사용하지않은테스트테스트이터셋사용하여하여오차오차계산함함가장성능이우수한모델을선택하도록해줍니다。테스트테스트이터셋은은모델모델모델의계산계산,모델이앞으로데이터어떻게어떻게일반화할지할지계산데도움을

널리쓰이는交叉验证기법

交叉验证에사용할할수기법기법은은은은은은은은그중다음과같은기법들이가장널리쓰이고있습니다。

  • k-겹:데이터를를대략같은크기로임의선정k개개의(또는겹으로도불림)으로으로분할。이중한한등분을제외한나머지등분으로모델을훈련,훈련에사용되지되지않은남은등분사용용하여모델을검증검증검증각각의등분이정확히한번씩검증에사용되도록이과정을k회반복합니다。전체K개개의분할분할대한평균오차는는는로로로이는交叉验证에가장널리활용되는기법이지만,모델을반복적훈련훈련시켜야실행에이오래걸릴수있습니다。아래이미지에서이과정을보여줍니다。
  • 홀드아웃:지정된훈련비율과과비율사용해데이터를정확히2개로임의분할。이방법은훈련과테스트를단한만하여,큰데이터셋에에대한실행을줄여,작은데이터셋에에대해오차를해석할때주의해야합니다해야해야해야
  • 리브아웃:k-겹접근방법으로데이터를를분할하,이때k는는이터내전체관측값의의개수같게모든모든모든터터터세트로테스트테스트한되게되게되게되게되게되게되게looocv(休留次交叉验证)라고라고부릅니다。
  • 반복임의부표본추출몬테카를로방법을사용하여다수의의임데이터분할분할을생성하여훈련세트테스트사용용하고모든결과를집계이기법은k-겹과겹과사한방식이지만각각의테스트세트는적으로선택됩니다。그래서일부이터포인트는한번이상테스트에사용될수있습니다。
  • 층화:훈련및테스트세트가응답변수와목표변수에대략으로동일한비율을갖도록데데데데합니다합니다데데데데합니다합니다데데데데데데데데데데데데데데를분할
  • 재대입:데이터를를분할하지않고모든모든터를모델훈련에에합니다결과결과와실제값값을비교함으로써오차를가합니다。이접근방식은성능에대한지나치게적인추정을낳는경우경우경우경우데데이터가충분하다면사용하지하지않는게게게게게게게

交叉验证은훈련과검증이수차례이루어지기때문에계산집약인에에수수。모든모든할세트가독립적이기때문에이분석을병렬로수행하여과정의속도높일수있습니다。와이파이클경우,홀드아웃아웃재대입기법사용하는하는이좋고,k-겹및반복임의본추출과기법은작은데데데더적합작은데데데더합니다합니다데데데에적합합니다。

MATLAB을사용한交叉验证

马铃薯®은交叉验证과과머신러닝을지원。분류학습기앱회귀학습기앱으로이런交叉验证기법중일부를사용할할수。

분류모델을훈련,검증및조정하는분류학습기。내역목록을보면다양한분류기유형이있습니다。

회귀모델을훈련,검증및조정하는회귀학습기。내역목록을보면다양한모델모델유형이있습니다。

계산집약적인작업의속도를높이기높并行计算工具箱™로멀티코어컴퓨터,gpu,클러스터에서병렬연산을할수있습니다。

머신러닝문제에交叉验证을사용하는방법에관한자세한내용은matlab과과사용하는统计和机器学习工具箱™深度学习工具箱™를를하십시오。

참조:统计和机器学习工具箱머신러닝지도학습특징선택정규화선형모델

머신러닝의난점:최적최적의분류모델모델선택과적합

机器学习问题问并回答:所有关于模型验证