이번역페이지는최신내용을담고있지않습니다。최신내용을문으로보려면여기를클릭하십시오。
언어고려사항
文本分析工具箱™는한국어,영어,일본어,독일어를지원합니다。대부분의文本分析工具箱함수는그외다른언어의텍스트에서도작동합니다。이테이블에서는다른언어에서文本分析工具箱기능을사용하는방법을설명합니다。
기능 | 언어고려사항 | 해결책 |
---|---|---|
토큰화 |
|
다른언어에도 자세한내용은 |
불용어제거 |
|
다른언어에서불용어를제거하려면 |
문장 검출 |
|
다른언어에서는문장검출을위한자체약어목록을지정해야할수있습니다。이작업을수행하려면 자세한내용은 |
워드클라우드 | 字符串형입력값의경우 |
다른언어에서는텍스트데이터를전처리하고
자세한내용은 |
단어임베딩 |
|
어이외의텍스트가포함된파일의경우 사전토큰화된텍스트에서 자세한내용은 |
키워드추출 |
|
다른언어에서는 자세한내용은 |
|
다른언어에서는 자세한내용은 |
언어에독립적기능
단어및N-Gram개수세기
bagOfWords
함수와bagOfNgrams
함수는언어에관계없이tokenizedDocument
입력값을지원합니다。데이터가포함된tokenizedDocument
배열이있는경우이러한함수를사용할수있습니다。
모델링및예측
fitlda
함수와fitlsa
함수는언어에관계없이bagOfWords
입력값과bagOfNgrams
입력값을지원합니다。데이터가포함된bagOfWords
객체 또는bagOfNgrams
객체가있는경우이러한함수를사용할수있습니다。
trainWordEmbedding
함수는언어에관계없이tokenizedDocument
또는파일입력값을지원합니다。올바른형식의데이터가포함된tokenizedDocument
배열또는파일이있는경우이함수를사용할수있습니다。
참고 문헌
[1] Unicode文本分割。https://www.unicode.org/reports/tr29/
[3] MeCab:另一个词性和形态分析仪。https://taku910.github.io/mecab/
참고 항목
stopWords
|removeWords
|normalizeWords
|bagOfWords
|bagOfNgrams
|tokenizedDocument
|fitlda
|fitlsa
|wordcloud
|addSentenceDetails
|addLanguageDetails