德国语言支持万博1manbetx
这个话题总结了文本分析工具箱™支持德国文本的功能。万博1manbetx为例说明如何分析德国文本数据,看看分析德国文本数据。
标记
的tokenizedDocument
德国输入函数自动检测。另外,设置“语言”
选项tokenizedDocument
来“德”
。此选项指定了令牌的语言细节。把语言的细节令牌,使用tokenDetails
。这些语言细节决定的行为removeStopWords
,addPartOfSpeechDetails
,normalizeWords
,addSentenceDetails
,addEntityDetails
功能上的令牌。
德国标记文本
德国标记文本使用tokenizedDocument
。德国文本自动检测功能。
str = [“早安。是不是可以es dir ?”“Heute将静脉肠道标签。”];文件= tokenizedDocument (str)
文件= 2 x1 tokenizedDocument: 8令牌:早安。蒙特es dir ?6代币:Heute将静脉肠道标签。
句子检测
检测句子结构的文档,使用addSentenceDetails
。您可以使用缩写
函数来帮助创建自定义缩写列表来检测。
句子的细节添加到德国的文档
德国标记文本使用tokenizedDocument
。
str = [“早安,施密特博士。可以您wieder贝瑟?”“Heute将静脉肠道标签。”];文件= tokenizedDocument (str);
句子的细节添加到文档使用addSentenceDetails
。这个函数将这句话号码添加到表返回的tokenDetails
。查看更新后的令牌最初几个令牌的详细信息。
= addSentenceDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails, 10)
令牌DocumentNumber SentenceNumber LineNumber类型语言除了___ _____ * * * __________ ___________ ________“好”1 1 1字母德“摩根”1 1 1字母德”、“1 1 1标点德“博士”1 1 1字母de”。“1 1 1 punctuation de "Schmidt" 1 1 1 letters de "." 1 1 1 punctuation de "Geht" 1 2 1 letters de "es" 1 2 1 letters de "Ihnen" 1 2 1 letters de
德国的缩写表
查看表的德国的缩写。使用这个表格来帮助创建自定义表的缩写句子检测时使用addSentenceDetails
。
台=缩写(“语言”,“德”);头(台)
缩写的使用_______”。T“普通”ABl“普通”Abb“普通”Abdr“普通”沛富“普通”Abfl“普通”Abh Abk“常规“常规”
词性的细节
德国词性细节添加到文档,使用addPartOfSpeechDetails
函数。
得到词性德国文本的细节
德国标记文本使用tokenizedDocument
。
str = [“早安。是不是可以es dir ?”“Heute将静脉肠道标签。”];文件= tokenizedDocument (str)
文件= 2 x1 tokenizedDocument: 8令牌:早安。蒙特es dir ?6代币:Heute将静脉肠道标签。
得到德国的词性信息文本,首先使用addPartOfSpeechDetails
。
= addPartOfSpeechDetails文件(文档);
查看词性细节,使用tokenDetails
函数。
tdetails = tokenDetails(文件);头(tdetails)
令牌DocumentNumber SentenceNumber LineNumber类型语言PartOfSpeech __________……________ ________是_____________ * * * _______”好“1 1 1字母de形容词“摩根”1 1 1字母de名词“。”1 1 1 punctuation de punctuation "Wie" 1 2 1 letters de adverb "geht" 1 2 1 letters de verb "es" 1 2 1 letters de pronoun "dir" 1 2 1 letters de pronoun "?" 1 2 1 punctuation de punctuation
命名实体识别
实体标记添加到文档,使用addEntityDetails
函数。
命名实体标记添加到德国的文本
德国标记文本使用tokenizedDocument
。
str = [“佐格恩斯特·冯·法兰克福去柏林。”“Besuchen您在沃尔夫斯堡大众。”];文件= tokenizedDocument (str);
实体标记添加到德国文本使用addEntityDetails
函数。该函数检测人名、地点、组织和其他命名实体。
= addEntityDetails文件(文档);
查看实体细节,使用tokenDetails
函数。
tdetails = tokenDetails(文件);头(tdetails)
令牌DocumentNumber SentenceNumber LineNumber类型语言是_____________ __________ PartOfSpeech实体……* * * ___________ ________ _______ __________“安永”1 1 1字母de专有名词的人“佐格”1 1 1字母de走眼动词“冯”1 1 1字母de adposition走眼de专有名词“法兰克福”1 1 1字母位置“票”1 1 1字母de adposition走眼de专有名词“柏林”1 1 1字母位置”。“1 1 1 punctuation de punctuation non-entity "Besuchen" 2 1 1 letters de verb non-entity
查看单词标记的实体“人”
,“位置”
,“组织”
,或“其他”
。这些话是没有标记“走眼”
。
idx = tdetails。实体~ =“走眼”;tdetails (idx:)
ans =5×8表令牌DocumentNumber SentenceNumber LineNumber类型语言PartOfSpeech实体__________和________ _______是_____________ * * * _______ _______“安永”1 1 1字母de专有名词的人“法兰克福”1 1 1字母de专有名词的位置“柏林”1 1 1字母de专有名词的位置“大众”2 1 1字母de名词组织“沃尔夫斯堡”2 1 1字母de专有名词的位置
停止词
移除阻止的话根据标记语言文档的细节,使用removeStopWords
。为德国停止词集的列表“语言”
选项stopWords
来“德”
。
德国阻止文字文件删除
德国标记文本使用tokenizedDocument
。德国文本自动检测功能。
str = [“早安。是不是可以es dir ?”“Heute将静脉肠道标签。”];文件= tokenizedDocument (str)
文件= 2 x1 tokenizedDocument: 8令牌:早安。蒙特es dir ?6代币:Heute将静脉肠道标签。
使用删除停用词removeStopWords
函数。函数使用语言细节的文档,以确定哪些语言停止词删除。
文件= removeStopWords(文档)
文件= 2 x1 tokenizedDocument: 5令牌:早安。可以吗?5令牌:Heute将肠道标签。
阻止
根据令牌干细胞标记语言细节,使用normalizeWords
。
遏制德国的文本
德国标记文本使用tokenizedDocument
函数。德国文本自动检测功能。
str = [“早安。是不是可以es dir ?”“Heute将静脉肠道标签。”];文件= tokenizedDocument (str);
使用令牌normalizeWords
。
文件= normalizeWords(文档)
文件= 2 x1 tokenizedDocument: 8令牌:肠道morg。蒙特es dir ?6代币:heut将静脉肠道标签。
语言的特性
单词和语法计数
的bagOfWords
和bagOfNgrams
功能的支持万博1manbetxtokenizedDocument
输入的语言。如果你有一个tokenizedDocument
数组包含您的数据,那么您可以使用这些功能。
建模和预测
的fitlda
和fitlsa
功能的支持万博1manbetxbagOfWords
和bagOfNgrams
输入的语言。如果你有一个bagOfWords
或bagOfNgrams
对象包含您的数据,那么您可以使用这些功能。
的trainWordEmbedding
功能支持万博1manbetxtokenizedDocument
无论语言或文件输入。如果你有一个tokenizedDocument
数组或包含您的数据文件以正确的格式,那么您可以使用这个函数。
另请参阅
tokenizedDocument
|removeStopWords
|stopWords
|addPartOfSpeechDetails
|tokenDetails
|normalizeWords
|addLanguageDetails