정규화를통한과적합방지

정규정규화기법은예측모델에서통계적과적합을방지하는사용됩니다정규화알고리즘은모델에추가정보를도입함으로써모델을보다간결하고정확하게만들어서다중공선성및중복된예측변수문제를처리할수있습니다。

널리사용되는정규화기법에는능형회귀(tikhonov정규정규라고도도도함알고리즘,축소축소방법,추적플롯및교차검증평균제곱등이있습니다。적합도메트릭으로서아카이케정보기준(aic)을적용할수도있습니다。

각각화화은특정사용사용사례에유용하게사용용

  • 套索는l1노름을사용하며,개별개별값을완전히0쪽쪽강제하는이있습니다。따라서套索는특징선택알고리즘사용하기하기좋습니다。套索는는적은개수의의변수를빠르게식별
  • 능형회귀는l2노름을계수사용합니다(제곱오차의합을최소화함)。능형회귀는축소를수의계수걸쳐확산경향이있습니다경향경향경향이이있습니다。모델에많은의계수포함해야하는경우능형가좋은좋은이될수있습니다。
  • 신축망은가예측변수를식별하지못套装하는를보완할수。

정규화는모델이보다적은예측변수를사용하도록강제한다는한다는점특징선택과관련이있습니다。정규정규방법에는가지뚜렷한이점이있습니다。

  • 정규화기법은대부분의선택방법(일변량특징선택제외)보다훨씬큰데이터셋에에연산연산을을수행수수수卢赛索및능형회귀는개내지는수만개이르는변수변수를포함하는하는데터셋적용할할수수데변수적용를할수
  • 정규정규화기법은특징특징보다정확한예측예측모델을하는경우경우경우가많습니다。특징선택은이산공간에대해연산을수행하는방면정규화는연속공간에대해연산을수행합니다。따라서정규화는모델을미세조정할수있으며더정확한추정값을생성할수있습니다。

하지만특징선택방법에이점이점이점。

  • 특징특징은보다직관적이고사람에게설명하기하기하기가쉽습니다。
  • 马铃薯®统计和机器学习工具箱™는널리사용되는모든정규정규화기법을지원,선형회귀,로지스틱회귀,서포트서포트,선형선형이가능합니다。부스팅결정트리와같은다른유형을사용할때때는특징선택을적용해야해야해야

요점

  • 정규화정규화는특징선택과함께예측모델에서통계적과적합을하는사용됩니다
  • 정규화는연속공간에대해을수행하므로다양한유형모델링이필요선형모델링에서이산특징특징선택보다좋은성과를수수수수수수수

예시시나리오

암암를진행하고있다가정해해。암환자500명의유전자서열바탕으로15,000개의유전자중어느것이질병악화에유의미한영향주는지확인하고자합니다。런타임이중요한경우에는최소잉여도 - 최대연관성이웃성분분석.,일변량(런타임이중요한한)과같은특징순위지정방법을적용수있습니다。이처럼변수가많은경우에는순차적특징만이비실용적입니다。또는정규화를사용하여하여모델을탐색할수도수도능형회귀는계수를충분히빠르게완전히0쪽으로강제하지않으므로사용할수없습니다。500개가넘는유전자넘는를를식별해야해야도사용할수수신축망을사용하는하는가능할수있습니다。

참조:특징선택머신러닝지도학습선형모델自动化

머신러닝의난점:최적최적의분류모델모델선택과적합