主要内容

语言考虑因素

Text Analytics Toolbox™支万博1manbetx持英语,日语,德语和韩语。大多数文本分析工具箱功能也适用于其他语言的文本。此表总结了如何使用其他语言的文本分析工具箱功能。

特征 语言考虑因素 解决方法
象征化

令人畏缩的鳕文功能只有英语,日语,德语和韩语的内置规则。英语和德语文本,'unicode'令牌化方法令人畏缩的鳕文使用基于Unicode的规则来检测令牌®标准附件#29[1]和ICU标记器[2],修改以更好地检测诸如HASHTAG和URL等复杂令牌。日语和韩文文本,'麦布'令牌化方法使用基于MECAB令终止器的规则来检测令牌[3]

对于其他语言,您仍然可以尝试使用令人畏缩的鳕文。如果令人畏缩的鳕文不产生有用的结果,然后尝试手动授权文本。创建一个令人畏缩的鳕文从手动授予文本中的数组,设置'tokenizemethod'选择'没有任何'

有关更多信息,请参阅令人畏缩的鳕文

停止删除词

秒表Removestopwords.函数支持英语,日语,万博1manbetx德语和韩语仅限单词。

从其他语言中删除停止单词,使用删除并指定您自己的停止单词以删除。

句子检测

AddsentEnCentails.函数根据标点符号字符和行号信息检测句子边界。对于英语和德语文本,该函数还使用传递给函数的缩写列表。

对于其他语言,您可能需要指定自己的句子检测缩写列表。为此,使用'缩写'选择AddsentEnCentails.

有关更多信息,请参阅AddsentEnCentails.

词云

对于字符串输入,WordCloud.wordcloudcounts.功能使用英语,日语,德语和韩语标记,停止单词删除和单词标准化。

对于其他语言,您可能需要手动预处理文本数据并指定唯一的单词和相应的大小WordCloud.

指定单词大小WordCloud.,将数据作为包含唯一单词和相应大小的表或阵列。

有关更多信息,请参阅WordCloud.

Word Embeddings.

文件输入到训练喜勒姆贝斯丁函数需要用空格分隔的单词。

对于包含非英文文本的文件,您可能需要输入一个令人畏缩的鳕文阵列到训练喜勒姆贝斯丁

创建一个令人畏缩的鳕文来自预防文本的数组,使用令人畏缩的鳕文功能并设置'tokenizemethod'选择'没有任何'

有关更多信息,请参阅训练喜勒姆贝斯丁

关键词提取

Rakekeywords.功能仅支持英语,日万博1manbetx语,德语和韩文文本。

Rakekeywords.函数使用基于分隔符的方法提取关键字来识别候选关键字。默认情况下,该函数使用标点符号和所提供的停止单词秒表用输入文档的语言细节给出的语言作为分隔符。

对于其他语言,使用该语言适当的分隔符集'分隔师''mergingdelimiters'选项。

有关更多信息,请参阅Rakekeywords.

textrakkeywords.功能仅支持英语,日万博1manbetx语,德语和韩文文本。

textrakkeywords.函数通过基于它们的语音标记识别候选关键字来提取关键字。该函数使用由此给出的致辞标签addpartofspeechdetails.仅支持英语,日语,德语和韩文文万博1manbetx本的功能。

对于其他语言,请尝试使用Rakekeywords.而是使用该组合指定适当的分隔符集'分隔师''mergingdelimiters'选项。

有关更多信息,请参阅textrakkeywords.

语言无关功能

单词和n-gram计数

Bagofwords.Bagofngrams.功能支持万博1manbetx令人畏缩的鳕文输入无论语言如何。如果你有一个令人畏缩的鳕文包含数据的数组,然后您可以使用这些功能。

建模与预测

菲达Fitlsa.功能支持万博1manbetxBagofwords.Bagofngrams.输入无论语言如何。如果你有一个Bagofwords.或者Bagofngrams.包含数据的对象,然后可以使用这些函数。

训练喜勒姆贝斯丁功能支持万博1manbetx令人畏缩的鳕文或文件输入无论语言如何。如果你有一个令人畏缩的鳕文数组或包含数据格式的数据的文件,然后可以使用此功能。

参考

[1]Unicode文本分段https://www.unicode.org/reports/tr29/

[3]Mecab:又是言语和形态分析仪https://taku910.github.io/mecab/

也可以看看

||||||||||

相关话题