日本语言支持万博1manbetx
这个话题总结了文本分析工具箱™支持日本文本的功能。万博1manbetx为例说明如何分析日本文本数据,看看分析日本文本数据。
标记
的tokenizedDocument
日本输入函数自动检测。另外,设置“语言”
选项tokenizedDocument
来“ja”
。此选项指定了令牌的语言细节。把语言的细节令牌,使用tokenDetails
。这些语言细节决定的行为removeStopWords
,addPartOfSpeechDetails
,normalizeWords
,addSentenceDetails
,addEntityDetails
功能上的令牌。
标记指定附加MeCab选项,创建一个mecabOptions
对象。使用指定的标记MeCab标记选项,使用“TokenizeMethod”
选择tokenizedDocument
。
日本标记文本
日本标记文本使用tokenizedDocument
。日本文本自动检测功能。
str = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が輝きを増している。”];文件= tokenizedDocument (str)
文件= 4 x1 tokenizedDocument: 6令牌:恋に悩み,苦しむ。6令牌:恋の悩みで苦しむ。10令牌:空に星が輝き,瞬いている。10令牌:空の星が輝きを増している。
词性的细节
的tokenDetails
函数,默认情况下,包括词性细节使用令牌的细节。
得到词性日本文本的细节
日本标记文本使用tokenizedDocument
。
str = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が輝きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”“すもももももももものうち。”];文件= tokenizedDocument (str);
对日本文字,你可以使用词性的细节tokenDetails
。对于英语文本,您必须首先使用addPartOfSpeechDetails
。
tdetails = tokenDetails(文件);头(tdetails)
令牌DocumentNumber LineNumber类型语言PartOfSpeech引理实体除了___ _____ ___________ ________ _______ _________ __________“恋”1 1字母是名词“恋”非“に”1字母ja adpositionに“走眼”悩み“1 1字母是动词“悩む“走眼”、“1 1标点符号是标点符号”、“走眼”苦しむ“1 1字母是动词“苦しむ“走眼”。“1 1标点ja标点走眼。”““恋”2 1字母是名词“恋”非“の”2 1字母ja adpositionの走眼
命名实体识别
的tokenDetails
函数,默认情况下,包括实体细节使用令牌的细节。
日本命名实体标记添加到文本
日本标记文本使用tokenizedDocument
。
str = [“マリーさんはボストンからニューヨークに引っ越しました。”“駅へ鈴木さんを迎えに行きます。”“東京は大阪より大きいですか?”“東京に行った時,新宿や渋谷などいろいろな所を訪れました。”];文件= tokenizedDocument (str);
对日本文字,软件自动添加命名实体标记,所以您不需要使用addEntityDetails
函数。这个软件检测到人名、地点、组织和其他命名实体。查看实体细节,使用tokenDetails
函数。
tdetails = tokenDetails(文件);头(tdetails)
令牌DocumentNumber LineNumber类型语言PartOfSpeech引理实体_______是_____________ __________ ________ _______ _______ _____”マリー“1 1字母是专有名词“マリー”人“さん“1 1字母是名词“さん”人“は”1 1字母ja adpositionは“走眼”ボストン“1 1字母是专有名词“ボストン“位置”から“1 1字母ja adposition”から“走眼”ニューヨーク“1 1字母是专有名词“ニューヨーク“位置”に“1 1字母ja adpositionに“走眼”引っ越し“1 1字母是动词“引っ越す“走眼
查看单词标记的实体“人”
,“位置”
,“组织”
,或“其他”
。这些话是没有标记“走眼”
。
idx = tdetails。实体~ =“走眼”;.Token tdetails (idx:)
ans =11 x1字符串“マリー”“さん”“ボストン”“ニューヨーク”“鈴木”“さん”“東京”“大阪”“東京”“新宿”“渋谷”
停止词
移除阻止的话根据标记语言文档的细节,使用removeStopWords
。为日本停止词集的列表“语言”
选项stopWords
来“ja”
。
移除日本停止的话
日本标记文本使用tokenizedDocument
。日本文本自动检测功能。
str = [“ここは静かなので,とても穏やかです”“企業内の顧客データを利用し,今年の売り上げを調べることが出来た。”“私は先生です。私は英語を教えています。”];文件= tokenizedDocument (str);
使用删除停用词removeStopWords
。函数使用语言的细节文档
确定哪些语言停止词删除。
文件= removeStopWords(文档)
文件= 3 x1 tokenizedDocument: 4令牌:静か,とても穏やか10令牌:企業顧客データ利用,今年売り上げ調べる出来。5令牌:先生。英語教え。
词元化
根据令牌lemmatize标记语言细节,使用normalizeWords
并设置“风格”
选项“引理”
。
Lemmatize日本文字
日本标记文本使用tokenizedDocument
函数。日本文本自动检测功能。
str = [“空に星が輝き,瞬いている。”“空の星が輝きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”];文件= tokenizedDocument (str);
Lemmatize令牌使用normalizeWords
。
文件= normalizeWords(文档)
文件= 4 x1 tokenizedDocument的令牌:10个空に星が輝く,瞬くている。10令牌:空の星が輝きを増すている。9令牌:駅までは遠いて,歩けるない。7令牌:遠くの駅まで歩けるない。
语言的特性
单词和语法计数
的bagOfWords
和bagOfNgrams
功能的支持万博1manbetxtokenizedDocument
输入的语言。如果你有一个tokenizedDocument
数组包含您的数据,那么您可以使用这些功能。
建模和预测
的fitlda
和fitlsa
功能的支持万博1manbetxbagOfWords
和bagOfNgrams
输入的语言。如果你有一个bagOfWords
或bagOfNgrams
对象包含您的数据,那么您可以使用这些功能。
的trainWordEmbedding
功能支持万博1manbetxtokenizedDocument
无论语言或文件输入。如果你有一个tokenizedDocument
数组或包含您的数据文件以正确的格式,那么您可以使用这个函数。
另请参阅
tokenizedDocument
|removeStopWords
|stopWords
|addPartOfSpeechDetails
|tokenDetails
|normalizeWords
|addLanguageDetails
|addEntityDetails