머신러닝은사람과동물에게는자연스러운일,즉경험을통해학습하는것을컴퓨터가수행할수있도록가르치는데이터분석기법입니다。머신러닝알고리즘은미리결정된방정식을모델로의존하지않고계산방법을사용하여데이터에서직접정보를”학습”합니다。학습할수있는샘플수가증가함에따라알고리즘성능이향상됩니다。
머신러닝알고리즘은통찰력을생성하고더나은의사결정과예측을수행하도록도와주는자연패턴을데이터에서찾습니다。자연패턴은의료진단,주식거래,에너지부하예측등에서중요한결정을내리기위해매일사용됩니다。예를들어,미디어사이트는머신러닝에의존하여수백만개의옵션을살펴보고노래또는동영상추천을제공합니다。소매업체는머신러닝을통해고객의구매행동에대한통찰력을얻습니다。
대용량데이터와많은변수가관련되어있지만기존공식이나방정식이없는복잡한작업이나문제에머신러닝을사용해보십시오。예를들어다음과같은상황을처리해야할경우머신러닝이좋은옵션입니다。
얼굴인식,음성인식의경우처럼직접작성하는규칙과방정식이너무복잡한상황
거래기록에서사기를감지하는경우처럼작업규칙이지속적으로바뀌는상황
자동화된트레이딩,에너지수요예측,쇼핑추세예측의경우처럼데이터특징이계속바뀌고프로그램을조정해야하는상황
머신러닝은두가지유형의기법을사용합니다。지도(监督)학습기법은미래출력을예측할수있도록알려진입력및출력데이터를기반으로모델을학습하고,비지도(无监督)학습기법은입력데이터에서숨겨진패턴이나고유구조체를찾습니다。
머지도(监督)신러닝은불확실성이있을때증거를기반으로예측을수행하는모델을작성합니다。지도학습알고리즘은알려진입력데이터셋및해당데이터에대한알려진응답(출력)을사용하고새데이터에대한응답을위해합리적인예측을생성하도록모델을학습합니다。예측하려고하는출력에대한알려진데이터가있는경우지도(监督)학습을사용합니다。
지도학습은분류및회귀기법을사용하여예측모델을개발합니다。
분류기법은이메일이진짜또는스팸인지여부,종양이악성또는양성인지여부등의개별응답을예측합니다。분류모델은입력데이터를범주로분류합니다。일반적인응용분야에는의료이미징,음성인식,신용평가등이있습니다。
데이터에태그지정하거나범주화하거나특정그룹또는클래스로구분할수있는경우분류를사용합니다。예를들어수기인식을위한응용분야에서는문자와숫자를인식하기위한분류를사용합니다。이미지프로세싱및컴퓨터비전에서는객체탐지및이미지분할에비지도(无监督)패턴인식기법이사용됩니다。
분류를수행하기위한일반적인알고리즘에는SVM(万博1manbetx支持向量机),提高了및袋装의사결정트리,k最近的邻居,朴素贝叶斯,판별식분석,로지스틱회귀,신경망등이포함됩니다。
회귀기법은온도변화또는전력수요변동등의연속응답을예측합니다。일반적인응용분야에는전기부하예측,알고리즘트레이딩등이있습니다。
데이터범위로작업하는경우또는응답의특성이실제숫자(예:온도또는장비오류발생까지의시간)인경우회귀기법을사용합니다。
일반적인회귀알고리즘에는선형모델,비선형모델,정규화,단계적회귀,提高了및袋装의사결정트리,신경망,적응뉴로퍼지학습등이포함됩니다。
임상의들이누군가1년내에심장마비를일으킬지여부를예측하고자한다고가정해보십시오。임상의들은연령,체중,키,혈압을비롯하여이전환자들에대한데이터를보유하고있으며,이전환자들에게1년내에심장마비가나타났는지여부를알고있습니다。따라서문제는기존데이터를새로운사람이1년내에심장마비를일으킬지예측할수있는모델에결합하는것입니다。
비지도(无监督)학습은데이터에서숨겨진패턴이나고유구조체를찾습니다。그러한패턴이나구조체는분류된응답없이입력데이터로구성된데이터셋에서추론됩니다。
클러스터링은가장일반적인비지도(无监督)학습기법입니다。이기법은탐색적데이터분석을통해데이터에서숨겨진패턴이나그룹을찾는데사용됩니다。클러스터분석의응용분야에는유전자서열분석,시장조사,객체인식등이있습니다。
예를들어휴대폰기지국을세울위치를최적화하려는경우휴대폰회사에서는머신러닝을사용하여기지국에의존하는사람들의클러스터수를예측합니다。전화기는한번에한곳의기지국에만신호를보낼수있으므로,팀에서는고객의그룹또는클러스터를위한신호수신을최적화하기위해클러스터링알고리즘을사용해최적의기지국배치를설계합니다。
클러스터링을수행하기위한일반적인알고리즘에는k - means및k-medoids,계층적클러스터링,高斯혼합모델,隐马尔科夫모델,자가조직맵,퍼지c클러스터링,차감클러스터링등이포함됩니다。
수십개의지도학습및비지도학습알고리즘이있고각알고리즘에는다양한학습접근법이사용되기때문에적합한알고리즘을선택하는일은매우어려운일처럼보일수있습니다。
최상의방법이나모든상황에맞는알고리즘은없습니다。적합한알고리즘을찾는것은어느정도는시행착오과정이라할수있습니다。경험이많은데이터과학자조차도시도해보지않으면알고리즘이적합한지여부를알수가없습니다。하지만알고리즘선택은작업중인데이터의크기와유형,데이터에서얻으려는통찰력,이통찰력을사용하는방식에따라서도달라집니다。
머지도(监督)신러닝과비지도(无监督)머신러닝중무엇을선택할지에대한몇가지지침은다음과같습니다。
데이터를사용해더나은의사결정을내리려면머신러닝의힘을어떻게활용할수있습니까?MATLAB을이용하면머신러닝이용이해집니다。빅데이터처리를위한툴과기능은물론머신러닝에대한액세스를가능하게하는앱도제공하는MATLAB은데이터분석에머신러닝을적용하기위한이상적인환경입니다。
MATLAB에서엔지니어와데이터과학자는이미만들어진기능과광범위한툴박스는물론분류,회귀및클러스터링을위한전문앱에도즉시액세스할수있습니다。
MATLAB에서는다음이가능합니다。
러트거스대학교의예술및인공지능실험실연구원들은컴퓨터알고리즘이사람처럼쉽게그림을스타일,장르,예술가별로분류할수있는지확인하고자했습니다。연구원들은먼저그림스타일을분류하기위해시각적특징을식별했습니다。개발된알고리즘은비전문가인일반인을능가하여60%의정확도로데이터베이스에서그림스타일을분류했습니다。
연구원들은스타일분류에유용한시각적특징(지도학습)이예술적영향(비지도학습)을확인하는데사용될수도있다는가설을세웠습니다。
그들은谷歌이미지를기반으로훈련된분류알고리즘을사용하여특정객체를식별했으며,550년의기간에걸쳐서로다른예술66명가이그린그림1700점이상을대상으로알고리즘을테스트했습니다。이알고리즘은디에고벨라스케스의”교황이노켄티우세스10의초상“이프랜시스베이컨의”교황이노켄티우세스10의초상화연구”에미치는영향을비롯하여관련작품을쉽게식별했습니다。
사무실건물,병원,기타대형상업건물의HVAC(난방,환기및냉방)시스템은변화하는날씨패턴,가변적인에너지비용또는건물의열특성을고려하지않기때문에비효율적인경우가많습니다。
BuildingIQ의클라우드기반소프트웨어플랫폼은이러한문제를해결합니다。이플랫폼은첨단알고리즘과머신러닝방법을사용하여전력계,온도계,HVAC압력센서에서수집된수기가바이트의정보와날씨및에너지비용을지속적으로처리합니다。특히,머신러닝을사용하여데이터를세분화하고난방및냉방프로세스에대한가스,전기,증기및태양열의상대적기여도를결정합니다。BuildingIQ플랫폼은정상운영시대형상업건물의HVAC에너지소비량을10% ~ 25%절감합니다。
8백만이상의회원을보유한RAC는영국의가장큰자동차단체중하나로서,개인/비즈니스운전자에게긴급출동서비스,보험및기타서비스를제공합니다。
도로사고에신속히대응하고,추돌사고를줄이고,보험비를낮추기위해RAC는고급머신러닝알고리즘을사용하여저속충돌을감지하고이러한사고를과속방지턱이나움푹들어간곳과같이보다일반적인운전사고와구분하는온보드충돌감지시스템을개발했습니다。독립적인테스트에서RAC시스템은테스트충돌감지시92%정확도를나타냈습니다。