主要内容

이번역페이지는최신내용을담고있지않습니다。최신내용을문으로보려면여기를클릭하십시오。

언어고려사항

文本分析工具箱™는한국어,영어,일본어,독일어를지원합니다。대부분의文本分析工具箱함수는그외다른언어의텍스트에서도작동합니다。이테이블에서는다른언어에서文本分析工具箱기능을사용하는방법을설명합니다。

기능 언어고려사항 해결책
토큰화

tokenizedDocument함수에는한국어,@mail.어,일본어,독일어만을위한내장규칙이있습니다。어와독일어텍스트의경우tokenizedDocumentunicode的토큰화방법이Unicode®标准附件#29[1]및해시태그、URL같은복합토큰을더욱잘감지할수있도록수정된ICU토큰추출기[2]에기반한규칙을사용하여토큰을감지합니다。한국어와일본어텍스트의경우“mecab”토큰화방법이MeCab토큰추출기[3]에기반한규칙을사용하여토큰을감지합니다。

다른언어에도tokenizedDocument를사용할수있습니다。tokenizedDocument에서유용한결과가나오지않는경우텍스트를수동으로토큰화해보십시오。수동으로토큰화된텍스트에서tokenizedDocument배열을만들려면“TokenizeMethod”옵션을“没有”으로설정하십시오。

자세한내용은tokenizedDocument항목을참조하십시오。

불용어제거

stopWords함수와removeStopWords함수는한국어,@mail.어,일본어,독일어불용어만지원합니다。

다른언어에서불용어를제거하려면removeWords를사용하여제거할불용어를직접지정해야합니다。

문장 검출

addSentenceDetails함수는문장부호와줄번호정보를기준으로문장경계를검출합니다。어와독일어텍스트의경우이함수는함수로전달된약어목록도사용합니다。

다른언어에서는문장검출을위한자체약어목록을지정해야할수있습니다。이작업을수행하려면addSentenceDetails“缩写”옵션을사용하십시오。

자세한내용은addSentenceDetails항목을참조하십시오。

워드클라우드

字符串형입력값의경우wordcloud함수와wordCloudCounts함수는한국어,영어,일본어,독일어의토큰화를사용하고,불용어제거및단어정규화를합니다。

다른언어에서는텍스트데이터를전처리하고wordcloud에고유한단어와해당크기를지정하는작업을수동으로수행해야할수있습니다。

wordcloud에단어크기를지정하려면데이터를고유한단어와해당크기가포함된테이블또는배열로입력하십시오。

자세한내용은wordcloud항목을참조하십시오。

단어임베딩

trainWordEmbedding함수에파일을입력하려면단어를공백으로구분해야합니다。

어이외의텍스트가포함된파일의경우tokenizedDocument배열을trainWordEmbedding에입력해야할수있습니다。

사전토큰화된텍스트에서tokenizedDocument배열을만들려면tokenizedDocument함수를사용하고“TokenizeMethod”옵션을“没有”으로설정하십시오。

자세한내용은trainWordEmbedding항목을참조하십시오。

키워드추출

rakeKeywords함수는한국어,@mail.어,일본어,독일어텍스트만지원합니다。

rakeKeywords함수는구분기호를사용하여후보키워드를식별하는방식으로키워드를추출합니다。기본적으로이함수는입력문서의언어세부정보에따라지정되는언어의stopWords에의해지정되는문장부호와불용어를구분기호로사용합니다。

다른언어에서는“分隔符”“MergingDelimiters”옵션을사용하여적절한구분기호세트를지정하십시오。

자세한내용은rakeKeywords항목을참조하십시오。

textrankKeywords함수는한국어,@mail.어,일본어,독일어텍스트만지원합니다。

textrankKeywords함수는품사태그를기준으로후보키워드를식별하여키워드를추출합니다。이함수는한국어,@mail.어,일본어,독일어텍스트만지원하는addPartOfSpeechDetails함수로지정된품사태그를사용합니다。

다른언어에서는rakeKeywords를대신사용하고“分隔符”“MergingDelimiters”옵션을사용하여적절한구분기호세트를지정해보십시오。

자세한내용은textrankKeywords항목을참조하십시오。

언어에독립적기능

단어및N-Gram개수세기

bagOfWords함수와bagOfNgrams함수는언어에관계없이tokenizedDocument입력값을지원합니다。데이터가포함된tokenizedDocument배열이있는경우이러한함수를사용할수있습니다。

모델링및예측

fitlda함수와fitlsa함수는언어에관계없이bagOfWords입력값과bagOfNgrams입력값을지원합니다。데이터가포함된bagOfWords객체 또는bagOfNgrams객체가있는경우이러한함수를사용할수있습니다。

trainWordEmbedding함수는언어에관계없이tokenizedDocument또는파일입력값을지원합니다。올바른형식의데이터가포함된tokenizedDocument배열또는파일이있는경우이함수를사용할수있습니다。

참고 문헌

[1] Unicode文本分割。https://www.unicode.org/reports/tr29/

[3] MeCab:另一个词性和形态分析仪。https://taku910.github.io/mecab/

참고 항목

||||||||||

관련 항목