主要内容

德国语言支持万博1manbetx

这个话题总结了文本分析工具箱™支持德国文本的功能。万博1manbetx为例说明如何分析德国文本数据,看看分析德国文本数据

标记

tokenizedDocument德国输入函数自动检测。另外,设置“语言”选项tokenizedDocument“德”。此选项指定了令牌的语言细节。把语言的细节令牌,使用tokenDetails这些语言细节决定的行为removeStopWords,addPartOfSpeechDetails,normalizeWords,addSentenceDetails,addEntityDetails功能上的令牌。

德国标记文本

德国标记文本使用tokenizedDocument。德国文本自动检测功能。

str = [“早安。是不是可以es dir ?”“Heute将静脉肠道标签。”];文件= tokenizedDocument (str)
文件= 2 x1 tokenizedDocument: 8令牌:早安。蒙特es dir ?6代币:Heute将静脉肠道标签。

句子检测

检测句子结构的文档,使用addSentenceDetails。您可以使用缩写函数来帮助创建自定义缩写列表来检测。

句子的细节添加到德国的文档

德国标记文本使用tokenizedDocument

str = [“早安,施密特博士。可以您wieder贝瑟?”“Heute将静脉肠道标签。”];文件= tokenizedDocument (str);

句子的细节添加到文档使用addSentenceDetails。这个函数将这句话号码添加到表返回的tokenDetails。查看更新后的令牌最初几个令牌的详细信息。

= addSentenceDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails, 10)
令牌DocumentNumber SentenceNumber LineNumber类型语言除了___ _____ * * * __________ ___________ ________“好”1 1 1字母德“摩根”1 1 1字母德”、“1 1 1标点德“博士”1 1 1字母de”。“1 1 1 punctuation de "Schmidt" 1 1 1 letters de "." 1 1 1 punctuation de "Geht" 1 2 1 letters de "es" 1 2 1 letters de "Ihnen" 1 2 1 letters de

德国的缩写表

查看表的德国的缩写。使用这个表格来帮助创建自定义表的缩写句子检测时使用addSentenceDetails

台=缩写(“语言”,“德”);头(台)
缩写的使用_______”。T“普通”ABl“普通”Abb“普通”Abdr“普通”沛富“普通”Abfl“普通”Abh Abk“常规“常规”

词性的细节

德国词性细节添加到文档,使用addPartOfSpeechDetails函数。

得到词性德国文本的细节

德国标记文本使用tokenizedDocument

str = [“早安。是不是可以es dir ?”“Heute将静脉肠道标签。”];文件= tokenizedDocument (str)
文件= 2 x1 tokenizedDocument: 8令牌:早安。蒙特es dir ?6代币:Heute将静脉肠道标签。

得到德国的词性信息文本,首先使用addPartOfSpeechDetails

= addPartOfSpeechDetails文件(文档);

查看词性细节,使用tokenDetails函数。

tdetails = tokenDetails(文件);头(tdetails)
令牌DocumentNumber SentenceNumber LineNumber类型语言PartOfSpeech __________……________ ________是_____________ * * * _______”好“1 1 1字母de形容词“摩根”1 1 1字母de名词“。”1 1 1 punctuation de punctuation "Wie" 1 2 1 letters de adverb "geht" 1 2 1 letters de verb "es" 1 2 1 letters de pronoun "dir" 1 2 1 letters de pronoun "?" 1 2 1 punctuation de punctuation

命名实体识别

实体标记添加到文档,使用addEntityDetails函数。

命名实体标记添加到德国的文本

德国标记文本使用tokenizedDocument

str = [“佐格恩斯特·冯·法兰克福去柏林。”“Besuchen您在沃尔夫斯堡大众。”];文件= tokenizedDocument (str);

实体标记添加到德国文本使用addEntityDetails函数。该函数检测人名、地点、组织和其他命名实体。

= addEntityDetails文件(文档);

查看实体细节,使用tokenDetails函数。

tdetails = tokenDetails(文件);头(tdetails)
令牌DocumentNumber SentenceNumber LineNumber类型语言是_____________ __________ PartOfSpeech实体……* * * ___________ ________ _______ __________“安永”1 1 1字母de专有名词的人“佐格”1 1 1字母de走眼动词“冯”1 1 1字母de adposition走眼de专有名词“法兰克福”1 1 1字母位置“票”1 1 1字母de adposition走眼de专有名词“柏林”1 1 1字母位置”。“1 1 1 punctuation de punctuation non-entity "Besuchen" 2 1 1 letters de verb non-entity

查看单词标记的实体“人”,“位置”,“组织”,或“其他”。这些话是没有标记“走眼”

idx = tdetails。实体~ =“走眼”;tdetails (idx:)
ans =5×8表令牌DocumentNumber SentenceNumber LineNumber类型语言PartOfSpeech实体__________和________ _______是_____________ * * * _______ _______“安永”1 1 1字母de专有名词的人“法兰克福”1 1 1字母de专有名词的位置“柏林”1 1 1字母de专有名词的位置“大众”2 1 1字母de名词组织“沃尔夫斯堡”2 1 1字母de专有名词的位置

停止词

移除阻止的话根据标记语言文档的细节,使用removeStopWords。为德国停止词集的列表“语言”选项stopWords“德”

德国阻止文字文件删除

德国标记文本使用tokenizedDocument。德国文本自动检测功能。

str = [“早安。是不是可以es dir ?”“Heute将静脉肠道标签。”];文件= tokenizedDocument (str)
文件= 2 x1 tokenizedDocument: 8令牌:早安。蒙特es dir ?6代币:Heute将静脉肠道标签。

使用删除停用词removeStopWords函数。函数使用语言细节的文档,以确定哪些语言停止词删除。

文件= removeStopWords(文档)
文件= 2 x1 tokenizedDocument: 5令牌:早安。可以吗?5令牌:Heute将肠道标签。

阻止

根据令牌干细胞标记语言细节,使用normalizeWords

遏制德国的文本

德国标记文本使用tokenizedDocument函数。德国文本自动检测功能。

str = [“早安。是不是可以es dir ?”“Heute将静脉肠道标签。”];文件= tokenizedDocument (str);

使用令牌normalizeWords

文件= normalizeWords(文档)
文件= 2 x1 tokenizedDocument: 8令牌:肠道morg。蒙特es dir ?6代币:heut将静脉肠道标签。

语言的特性

单词和语法计数

bagOfWordsbagOfNgrams功能的支持万博1manbetxtokenizedDocument输入的语言。如果你有一个tokenizedDocument数组包含您的数据,那么您可以使用这些功能。

建模和预测

fitldafitlsa功能的支持万博1manbetxbagOfWordsbagOfNgrams输入的语言。如果你有一个bagOfWordsbagOfNgrams对象包含您的数据,那么您可以使用这些功能。

trainWordEmbedding功能支持万博1manbetxtokenizedDocument无论语言或文件输入。如果你有一个tokenizedDocument数组或包含您的数据文件以正确的格式,那么您可以使用这个函数。

另请参阅

||||||

相关的话题