主要内容

이번역페이지는최신내용을담고있지않습니다。최신내용을문으로보려면여기를클릭하십시오。

테이블에서정리되지않은데이터와누락된데이터정리하기

이예제에서는테이블에서누락된데이터가있는행을찾,고정리하고,삭제하는방법을보여줍니다。

샘플데이터불러오기

쉼@ @로구분된텍스트파일messy.csv에서샘플데이터를불러옵니다。파일에다음과같은다양한형태의누락된데이터@ @시자가많이있습니다。

  • 빈문자형벡터(")

  • 마침指导书(.)

  • NA

  • -99年

빈값으로처리되도록문자형벡터를지정하려면readtable함수에“TreatAsMissing”이름-값쌍의通讯录수를사용하십시오。이예제를라이브스크립트로실행하는경우에도21개의행을전부시하려면disp함수를사용하십시오。

T =可读的(“messy.csv”,“TreatAsMissing”, {“。”,“NA”});disp (T)
A B C D E  ________ ____ __________ ____ ____ {' afe1 '}{'是的'}3 3{‘egh3}南{‘不’}7 7{‘wth4}{'是的'}3 3{‘atn2} 23{‘不’}23日23{‘__arg1}{'是的'}5 5{‘jre3} 34.6{'是的'}34.6 - 34.6{‘wen9} 234{'是的'}234 234{‘ple2}{‘不’}2 2{‘dbo8}{‘不’}5 5{‘oii4}{'是的'}5 245{‘wnk3}{'是的'}245 245{‘abk6} 563 {0 x0 char} 563 563{‘pnj5} 463{‘不’}463 463{‘wnn3}{‘不’}6 6{‘oks9} 23{'是的'}23日23{‘wba3}南{'是的'}南14{‘pkn4}{‘不’}2 2{' adw3} 22{‘不’}22 22{‘poj2} -99{'是的'}-99 -99{‘bas8} 23{‘不’}23日23{‘gry5}南{'是的'}南21

T는21개행과5개변수를갖는테이블입니다。“TreatAsMissing”은파일의숫자형열에만적용되며“-99”와같이텍스트로지정된숫자형값은처리할수없습니다。

테이블약

总结함수를사용하여테이블요약을생성함으로써각변수에대한데이터형,설명,단위및기타기술통계량을확인합니다。

总结(T)
变量:A: 21x1 cell array of character vector B: 21x1 double值:Min -99 Median 14 Max 563 NumMissing 3 C: 21x1 cell array of character vector D: 21x1 double值:Min -99 Median 7 Max 563 NumMissing 2 E: 21x1 double值:Min -99 Median 14 Max 563

파일에서데이터를가져올때readtable은기본적으로숫자형이아닌요소를갖는변수를문자형벡터로구성된셀형배열로읽습니다。

누락된값을가지는행찾기

테이블T에서누락된값을하나이상가지는행의서브셋을@ @시합니다。

TF = ismissing(T,{“。”“NA”南-99});rowsWithMissing = T(任意(TF,2),:);disp (rowsWithMissing)
A B C D E  ________ ___ __________ ___ ___ {' egh3}南{‘不’}7 563{“abk6”}{0 x0 char} 563 563{‘wba3}南{'是的'}南-99{‘poj2}{'是的'}-99 -99{‘gry5}南{'是的'}南21

readtable이숫자형변수B,D,E에서“。”“NA”으로바꿨습니다。

누락값@ @시자바꾸기

코드-99年로` ` `시되는누락된값이` ` matlab ` ` ` ` `준숫자형누락값` ` ` `시자` ` ` ` ` ` ` ` ` ` ` `을갖도록데이터를정리합니다。

T =标准化发射(T,-99);disp (T)
A B C D E  ________ ____ __________ ____ ____ {' afe1 '}{'是的'}3 3{‘egh3}南{‘不’}7 7{‘wth4}{'是的'}3 3{‘atn2} 23{‘不’}23日23{‘__arg1}{'是的'}5 5{‘jre3} 34.6{'是的'}34.6 - 34.6{‘wen9} 234{'是的'}234 234{‘ple2}{‘不’}2 2{‘dbo8}{‘不’}5 5{‘oii4}{'是的'}5 245{‘wnk3}{'是的'}245 245{‘abk6} 563 {0 x0 char} 563 563{‘pnj5} 463{‘不’}463 463{‘wnn3}{‘不’}6 6{‘oks9} 23{'是的'}23日23{‘wba3}南{'是的'}南14{‘pkn4}{‘不’}2 2{'adw3'} 22 {'no'} 22 22 {'poj2'} NaN {'yes'} NaN NaN {'bas8'} 23 {'no'} 23 23 {'gry5'} NaN {'yes'} NaN 21

standardizeMissing은세군데에있는-99年를 모두으로바꿉니다。

새 테이블T2를생성하고,누락된값을테이블의이전행에있는값으로바꿉니다。fillmissing은누락된값을채울수있는다양한방법을제공합니다。

T2 =填充缺失(T,“以前”);disp (T2)
A B C D E  ________ ____ _______ ____ ____ {' afe1 '}{'是的'}3 3{‘egh3} 3{‘不’}7 7{‘wth4}{'是的'}3 3{‘atn2} 23{‘不’}23日23{‘__arg1}{'是的'}5 5{‘jre3} 34.6{'是的'}34.6 - 34.6{‘wen9} 234{'是的'}234 234{‘ple2}{‘不’}2 2{‘dbo8}{‘不’}5 5{‘oii4}{'是的'}5 245{‘wnk3}{'是的'}245 245{‘abk6} 563{'是的'}563 563{‘pnj5} 463{‘不’}463 463{‘wnn3}{‘不’}6 6{‘oks9} 23{'是的'}23日23{‘wba3} 23{'是的'}23 14{‘pkn4}{‘不’}2 2{‘adw3} 22{‘不’}22 22{'poj2'} 22 {'yes'} 22 22 {'bas8'} 23 {'no' } 23 23 {'gry5'} 23 {'yes'} 23 21

누락된값을가지는행제거하기

누락된값없이T의행만포함하는새테이블T3을생성합니다。T3에는행이16개만있습니다。

T3 = rmmissing(T);disp (T3)
A B C D E  ________ ____ _______ ____ ____ {' afe1 '}{'是的'}3 3{‘wth4}{'是的'}3 3{‘atn2} 23{‘不’}23日23{‘__arg1}{'是的'}5 5{‘jre3} 34.6{'是的'}34.6 - 34.6{‘wen9} 234{'是的'}234 234{‘ple2}{‘不’}2 2{‘dbo8}{‘不’}5 5{‘oii4}{'是的'}5 245{‘wnk3}{'是的'}245 245{‘pnj5} 463{‘不’}463 463{‘wnn3}{‘不’}6 6{‘oks9} 23{'是的'}23日23{‘pkn4}{‘不’}2 2{‘adw3} 22{‘不’}22 22{‘bas8} 23{‘不’}23日23

T3에는16개행과5개변수가있습니다。

데이터를재구성하기

T3의 행을C를기준으로내림차순으로정렬한후一个를기준으로오름차순으로정렬합니다。

T3 = sortrows(T2,{“C”,“一个”},{“下”,“提升”});disp (T3)
A B C D E  ________ ____ _______ ____ ____ {' abk6} 563{'是的'}563 563{‘afe1}{'是的'}3 3{‘__arg1}{'是的'}5 5{‘gry5} 23{'是的'}23 21 34.6{‘jre3}{'是的'}34.6 - 34.6{‘oii4}{'是的'}5 5{‘oks9} 23{'是的'}23日23{‘poj2} 22{'是的'}22 22{‘wba3} 23{'是的'}23 234{‘wen9}{'是的'}234 234{‘wnk3} 245{'是的'}245 245{‘wth4}{'是的'}3 3{‘adw3} 22{‘不’}22 22{‘atn2} 23{‘不’}23日23{‘bas8} 23{‘不’}23日23日{‘dbo8}{‘不’}5 5{‘egh3} 3{‘不’}7 7{‘pkn4} 2{‘不’}2 2{‘ple2}{‘不’}2 463{‘pnj5}{‘不’}463 463{‘wnn3}{‘不’}6 6

C의 행은“是的”를기준으로처음그룹화된후“不”를기준으로그룹화됩니다。그런다음,一个의행이사전순으로나열됩니다。

一个C가서로옆에오도록테이블을재정렬합니다。

T3 = T3(:,{“一个”,“C”,“B”,' D ',“E”});disp (T3)
一个C B D E  ________ _______ ____ ____ ____ {' abk6’}{'是的'}563 563 563{‘afe1}{'是的'}3 3 3{‘__arg1}{'是的'}5 5 5{‘gry5}{'是的'}23日23日21{‘jre3}{'是的'}34.6 34.6 34.6{‘oii4}{'是的'}5 5 5{‘oks9}{'是的'}23 23日23{‘poj2}{'是的'}22 22 22{‘wba3}{'是的'}23日23日14{‘wen9}{'是的'}234 234 234{‘wnk3}{'是的'}245 245 245{‘wth4}{'是的'}3 3 3{‘adw3}{‘不’}22 22 22{‘atn2}{‘不’}23 23日23{‘bas8}{‘不’}23 23日23{‘dbo8}{‘不’}5 5 5{‘egh3}{‘不’}3 7 7{‘pkn4}{‘不’}22 2{‘ple2}{‘不’}2 2 2{‘pnj5}{‘不’}463 463 463{‘wnn3}{‘不’}6 6 6

참고 항목

||||||

관련 항목