语言的注意事项
文本分析工具箱™支持语言英语,日语,德语,韩语。万博1manbetx大多数文本分析工具箱函数也使用其他语言文本。这个表总结了如何使用文本分析工具箱功能,为其他语言。
功能 | 语言的考虑 | 解决方案 |
---|---|---|
标记 | 的 |
为其他语言,你仍然可以尝试使用 有关更多信息,请参见 |
停止词删除 | 的 |
删除其他语言阻止的话,使用 |
句子检测 | 的 |
对于其他语言,您可能需要指定自己的句子的缩写列表检测。要做到这一点,使用 有关更多信息,请参见 |
词云 | 字符串输入的 |
为其他语言,你可能需要手动进行预处理文本数据,指定独特的单词和相应的尺寸 指定字的大小 有关更多信息,请参见 |
字嵌入 | 文件的输入 |
对于文件包含非英语文本,您可能需要输入 创建一个 有关更多信息,请参见 |
关键字提取 | 的 |
的 对于其他语言,指定一组适当的分隔符使用 有关更多信息,请参见 |
的 |
的 为其他语言,尝试使用 有关更多信息,请参见 |
语言的特性
单词和语法计数
的bagOfWords
和bagOfNgrams
功能的支持万博1manbetxtokenizedDocument
输入的语言。如果你有一个tokenizedDocument
数组包含您的数据,那么您可以使用这些功能。
建模和预测
的fitlda
和fitlsa
功能的支持万博1manbetxbagOfWords
和bagOfNgrams
输入的语言。如果你有一个bagOfWords
或bagOfNgrams
对象包含您的数据,那么您可以使用这些功能。
的trainWordEmbedding
功能支持万博1manbetxtokenizedDocument
无论语言或文件输入。如果你有一个tokenizedDocument
数组或包含您的数据文件以正确的格式,那么您可以使用这个函数。
引用
[1]Unicode文本分割。https://www.unicode.org/reports/tr29/
[3]MeCab:另一种词性和形态分析仪。https://taku910.github.io/mecab/
另请参阅
stopWords
|removeWords
|normalizeWords
|bagOfWords
|bagOfNgrams
|tokenizedDocument
|fitlda
|fitlsa
|wordcloud
|addSentenceDetails
|addLanguageDetails