언어고려사항- MATLAB & Sim万博1manbetxulink - MathWorks한국 - 万博1manbetx,s manbetx 845,万博尤文图斯

언어고려사항

文本分析工具箱™는한국어,영어,일본어,독일어를지원합니다。대부분의文本分析工具箱함수는그외다른언어의텍스트에서도작동합니다。이테이블에서는다른언어에서文本分析工具箱기능을사용하는방법을설명합니다。

기능	언어고려사항	해결책
토큰화	`tokenizedDocument`함수에는한국어，@mail.어，일본어，독일어만을위한내장규칙이있습니다。어와독일어텍스트의경우`tokenizedDocument`의`unicode的`토큰화방법이Unicode^®标准附件#29[1]및해시태그、URL같은복합토큰을더욱잘감지할수있도록수정된ICU토큰추출기[２]에기반한규칙을사용하여토큰을감지합니다。한국어와일본어텍스트의경우`“mecab”`토큰화방법이MeCab토큰추출기［3］에기반한규칙을사용하여토큰을감지합니다。	다른언어에도`tokenizedDocument`를사용할수있습니다。`tokenizedDocument`에서유용한결과가나오지않는경우텍스트를수동으로토큰화해보십시오。수동으로토큰화된텍스트에서`tokenizedDocument`배열을만들려면`“TokenizeMethod”`옵션을`“没有”`으로설정하십시오。 자세한내용은`tokenizedDocument`항목을참조하십시오。
불용어제거	`stopWords`함수와`removeStopWords`함수는한국어，@mail.어，일본어，독일어불용어만지원합니다。	다른언어에서불용어를제거하려면`removeWords`를사용하여제거할불용어를직접지정해야합니다。
문장 검출	`addSentenceDetails`함수는문장부호와줄번호정보를기준으로문장경계를검출합니다。어와독일어텍스트의경우이함수는함수로전달된약어목록도사용합니다。	다른언어에서는문장검출을위한자체약어목록을지정해야할수있습니다。이작업을수행하려면`addSentenceDetails`의`“缩写”`옵션을사용하십시오。 자세한내용은`addSentenceDetails`항목을참조하십시오。
워드클라우드	字符串형입력값의경우`wordcloud`함수와`wordCloudCounts`함수는한국어,영어,일본어,독일어의토큰화를사용하고,불용어제거및단어정규화를합니다。	다른언어에서는텍스트데이터를전처리하고`wordcloud`에고유한단어와해당크기를지정하는작업을수동으로수행해야할수있습니다。 `wordcloud`에단어크기를지정하려면데이터를고유한단어와해당크기가포함된테이블또는배열로입력하십시오。 자세한내용은`wordcloud`항목을참조하십시오。
단어임베딩	`trainWordEmbedding`함수에파일을입력하려면단어를공백으로구분해야합니다。	어이외의텍스트가포함된파일의경우`tokenizedDocument`배열을`trainWordEmbedding`에입력해야할수있습니다。 사전토큰화된텍스트에서`tokenizedDocument`배열을만들려면`tokenizedDocument`함수를사용하고`“TokenizeMethod”`옵션을`“没有”`으로설정하십시오。 자세한내용은`trainWordEmbedding`항목을참조하십시오。
키워드추출	`rakeKeywords`함수는한국어，@mail.어，일본어，독일어텍스트만지원합니다。	`rakeKeywords`함수는구분기호를사용하여후보키워드를식별하는방식으로키워드를추출합니다。기본적으로이함수는입력문서의언어세부정보에따라지정되는언어의`stopWords`에의해지정되는문장부호와불용어를구분기호로사용합니다。 다른언어에서는`“分隔符”`및`“MergingDelimiters”`옵션을사용하여적절한구분기호세트를지정하십시오。 자세한내용은`rakeKeywords`항목을참조하십시오。
키워드추출	`textrankKeywords`함수는한국어，@mail.어，일본어，독일어텍스트만지원합니다。	`textrankKeywords`함수는품사태그를기준으로후보키워드를식별하여키워드를추출합니다。이함수는한국어，@mail.어，일본어，독일어텍스트만지원하는`addPartOfSpeechDetails`함수로지정된품사태그를사용합니다。 다른언어에서는`rakeKeywords`를대신사용하고`“分隔符”`및`“MergingDelimiters”`옵션을사용하여적절한구분기호세트를지정해보십시오。 자세한내용은`textrankKeywords`항목을참조하십시오。