主要内容

日本语言支持万博1manbetx

这个话题总结了文本分析工具箱™支持日本文本的功能。万博1manbetx为例说明如何分析日本文本数据,看看分析日本文本数据

标记

tokenizedDocument日本输入函数自动检测。另外,设置“语言”选项tokenizedDocument“ja”。此选项指定了令牌的语言细节。把语言的细节令牌,使用tokenDetails这些语言细节决定的行为removeStopWords,addPartOfSpeechDetails,normalizeWords,addSentenceDetails,addEntityDetails功能上的令牌。

标记指定附加MeCab选项,创建一个mecabOptions对象。使用指定的标记MeCab标记选项,使用“TokenizeMethod”选择tokenizedDocument

日本标记文本

日本标记文本使用tokenizedDocument。日本文本自动检测功能。

str = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が輝きを増している。”];文件= tokenizedDocument (str)
文件= 4 x1 tokenizedDocument: 6令牌:恋に悩み,苦しむ。6令牌:恋の悩みで苦しむ。10令牌:空に星が輝き,瞬いている。10令牌:空の星が輝きを増している。

词性的细节

tokenDetails函数,默认情况下,包括词性细节使用令牌的细节。

得到词性日本文本的细节

日本标记文本使用tokenizedDocument

str = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が輝きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”“すもももももももものうち。”];文件= tokenizedDocument (str);

对日本文字,你可以使用词性的细节tokenDetails。对于英语文本,您必须首先使用addPartOfSpeechDetails

tdetails = tokenDetails(文件);头(tdetails)
令牌DocumentNumber LineNumber类型语言PartOfSpeech引理实体除了___ _____ ___________ ________ _______ _________ __________“恋”1 1字母是名词“恋”非“に”1字母ja adpositionに“走眼”悩み“1 1字母是动词“悩む“走眼”、“1 1标点符号是标点符号”、“走眼”苦しむ“1 1字母是动词“苦しむ“走眼”。“1 1标点ja标点走眼。”““恋”2 1字母是名词“恋”非“の”2 1字母ja adpositionの走眼

命名实体识别

tokenDetails函数,默认情况下,包括实体细节使用令牌的细节。

日本命名实体标记添加到文本

日本标记文本使用tokenizedDocument

str = [“マリーさんはボストンからニューヨークに引っ越しました。”“駅へ鈴木さんを迎えに行きます。”“東京は大阪より大きいですか?”“東京に行った時,新宿や渋谷などいろいろな所を訪れました。”];文件= tokenizedDocument (str);

对日本文字,软件自动添加命名实体标记,所以您不需要使用addEntityDetails函数。这个软件检测到人名、地点、组织和其他命名实体。查看实体细节,使用tokenDetails函数。

tdetails = tokenDetails(文件);头(tdetails)
令牌DocumentNumber LineNumber类型语言PartOfSpeech引理实体_______是_____________ __________ ________ _______ _______ _____”マリー“1 1字母是专有名词“マリー”人“さん“1 1字母是名词“さん”人“は”1 1字母ja adpositionは“走眼”ボストン“1 1字母是专有名词“ボストン“位置”から“1 1字母ja adposition”から“走眼”ニューヨーク“1 1字母是专有名词“ニューヨーク“位置”に“1 1字母ja adpositionに“走眼”引っ越し“1 1字母是动词“引っ越す“走眼

查看单词标记的实体“人”,“位置”,“组织”,或“其他”。这些话是没有标记“走眼”

idx = tdetails。实体~ =“走眼”;.Token tdetails (idx:)
ans =11 x1字符串“マリー”“さん”“ボストン”“ニューヨーク”“鈴木”“さん”“東京”“大阪”“東京”“新宿”“渋谷”

停止词

移除阻止的话根据标记语言文档的细节,使用removeStopWords。为日本停止词集的列表“语言”选项stopWords“ja”

移除日本停止的话

日本标记文本使用tokenizedDocument。日本文本自动检测功能。

str = [“ここは静かなので,とても穏やかです”“企業内の顧客データを利用し,今年の売り上げを調べることが出来た。”“私は先生です。私は英語を教えています。”];文件= tokenizedDocument (str);

使用删除停用词removeStopWords。函数使用语言的细节文档确定哪些语言停止词删除。

文件= removeStopWords(文档)
文件= 3 x1 tokenizedDocument: 4令牌:静か,とても穏やか10令牌:企業顧客データ利用,今年売り上げ調べる出来。5令牌:先生。英語教え。

词元化

根据令牌lemmatize标记语言细节,使用normalizeWords并设置“风格”选项“引理”

Lemmatize日本文字

日本标记文本使用tokenizedDocument函数。日本文本自动检测功能。

str = [“空に星が輝き,瞬いている。”“空の星が輝きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”];文件= tokenizedDocument (str);

Lemmatize令牌使用normalizeWords

文件= normalizeWords(文档)
文件= 4 x1 tokenizedDocument的令牌:10个空に星が輝く,瞬くている。10令牌:空の星が輝きを増すている。9令牌:駅までは遠いて,歩けるない。7令牌:遠くの駅まで歩けるない。

语言的特性

单词和语法计数

bagOfWordsbagOfNgrams功能的支持万博1manbetxtokenizedDocument输入的语言。如果你有一个tokenizedDocument数组包含您的数据,那么您可以使用这些功能。

建模和预测

fitldafitlsa功能的支持万博1manbetxbagOfWordsbagOfNgrams输入的语言。如果你有一个bagOfWordsbagOfNgrams对象包含您的数据,那么您可以使用这些功能。

trainWordEmbedding功能支持万博1manbetxtokenizedDocument无论语言或文件输入。如果你有一个tokenizedDocument数组或包含您的数据文件以正确的格式,那么您可以使用这个函数。

另请参阅

|||||||

相关的话题