addPartOfSpeechDetails

在文档中添加词性标签

折叠所有页面

语法

updatedDocuments = addPartOfSpeechDetails(文档)

updatedDocuments = addPartOfSpeechDetails(文档，名称，值)

描述

使用addPartOfSpeechDetails向文档添加词性标签。

支持英文、日文、德文、韩文万博1manbetx。

例子

updatedDocuments= addPartOfSpeechDetails (文档）检测语音中的词性文档并更新令牌的详细信息。默认情况下，该函数为词性标记重新标记文本。例如，该函数将单词“you’re”拆分为标记“you”和“re”。来获取词性细节updatedDocuments,使用tokenDetails．

updatedDocuments= addPartOfSpeechDetails (文档，名称,值）使用一个或多个名称-值对参数指定其他选项。

提示

使用addPartOfSpeechDetails在使用较低的，上，erasePunctuation，normalizeWords，removeWords,removeStopWords函数作为addPartOfSpeechDetails使用这些函数删除的信息。

例子

全部折叠

为文档添加词性细节

打开实时脚本

加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗，用空格分隔单词。从中提取文本sonnetsPreprocessed.txt，以换行符将文本分割为文档，然后对文档进行标记。

文件名=“sonnetsPreprocessed.txt”；str = extractFileText(文件名);textData = split(str，换行符);documents = tokenizedDocument(textData);

查看前几个令牌的令牌细节。

tdetails = tokenDetails(文档);头(tdetails)

令牌DocumentNumber LineNumber Type Language ___________ ______________ __________ _______ ________ " fairrest " 1 1个字母en "creatures" 1 1个字母en "desire" 1 1个字母en "increase" 1 1个字母en "因此" 1 1个字母en " beauys " 1 1个字母en "rose" 1 1个字母en "might" 11 1个字母en

属性向文档添加词性细节addPartOfSpeechDetails函数。这个函数首先向文档添加句子信息，然后将词性标记添加到返回的表中tokenDetails．查看前几个令牌的更新令牌详细信息。

文档= addPartOfSpeechDetails(文档);tdetails = tokenDetails(文档);头(tdetails)

标记DocumentNumber SentenceNumber LineNumber类型语言parttofspeech ___________ ______________ ______________ __________ _______ ________ ______________“fairrest”1 1 1个字母形容词“creatures”1 1 1个字母名词“desire”1 1 1个字母名词“increase”1 1 1个字母名词“beauys”1 1 1个字母名词“rose”1 1 1个字母名词“might”1 1 1 1个字母助动词

获取日语文本的词性细节

打开实时脚本

使用标记化日语文本tokenizedDocument．

STR = [“恋に悩み，苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き，瞬いている。”“空の星が輝きを増している。”“駅までは遠くて，歩けない。”“遠くの駅まで歩けない。”“すもももももももものう。”];documents = tokenizedDocument(str);

对于日语文本，您可以使用tokenDetails．对于英文文本，必须先使用addPartOfSpeechDetails．

tdetails = tokenDetails(文档);头(tdetails)

令牌DocumentNumber LineNumber PartOfSpeech引理实体类型语言  _______ ______________ __________ ___________ ________ ____________ _______ __________ " 恋“1 1字母是名词“恋“走眼”に“1 1”字母ja adpositionに“走眼”悩み“1 1字母是动词“悩む“走眼”、“1 1标点ja标点符号”、“走眼”苦しむ“1 1字母是动词“苦しむ“走眼”。“11 1标点ja标点”。“非实体”恋“2个1字母ja名词”恋“非实体”の“2个1字母ja副词”の“非实体”

获取德语文本的词性细节

打开实时脚本

使用标记化德语文本tokenizedDocument．

STR = [“早安。是谁干的?”“Heute wird ein guter Tag。”];documents = tokenizedDocument(str)

documents = 2x1 tokenizedDocument: 8个token: Guten Morgen。是谁的?6个标记:Heute wild ein guter Tag。

要获得德语文本的词性细节，首先使用addPartOfSpeechDetails．

文档= addPartOfSpeechDetails(文档);

要查看词性详细信息，请使用tokenDetails函数。

tdetails = tokenDetails(文档);头(tdetails)

令牌DocumentNumber SentenceNumber LineNumber PartOfSpeech类型语言  ________ ______________ ______________ __________ ___________ ________ ____________ " 好“1 1 1字母de形容词“摩根”de名词1 1 1字母“”。1 1 1标点符号“Wie”1 2 1个字母副词“geht”1 2 1个字母动词“es”1 2 1个字母代词“dir”1 2 1个字母代词“?”1 2 1标点de标点

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文档，指定为tokenizedDocument数组中。

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名称-值参数必须出现在其他参数之后，但对的顺序无关紧要。

在R2021a之前，使用逗号分隔每个名称和值，并将其括起来的名字在报价。

例子:“DiscardKnownValues”,真的指定丢弃先前计算的详细信息并重新计算它们。

`RetokenizeMethod`- - - - - -方法重新标记文档
`“词性”`(默认)|`“没有”`

方法重新标记文档，指定为以下之一:

“词性”-转换词性标记的标记。该函数执行以下任务:
- 拆分复合词。例如，拆分复合词“想”进入代币“想要”而且”到“．这包括含有撇号的复合词。例如，该函数拆分单词“不要”进入代币“做”而且“不”．
- 合并不以前面标记结束的句点。例如，合并令牌“先生”而且“。”代币“先生”．
- 对于德语文本，合并跨越多个标记的缩写。例如，合并令牌“z”，“。”，“B”,“。”变成单个令牌“z。b .”．
- 将周期合并为省略号。例如，合并的三个实例“。”变成单个令牌“…”．
“没有”-不要重新标记文档。

`缩写`- - - - - -缩略语列表
字符串数组|特征向量|字符向量的单元格数组|表格

用于句子检测的缩写列表，指定为字符串数组、字符向量、字符向量的单元格数组或表。

如果输入文档不包含句子细节，则函数首先运行addSentenceDetails函数的缩写列表“缩写”．要为句子检测指定更多选项(例如，句子开头)，请使用addSentenceDetails使用前的功能addPartOfSpeechDetails细节。

如果缩写是字符串数组、字符向量或字符向量的单元格数组，则函数将这些视为正则缩写。如果下一个单词是大写的句子开头，则函数在结尾句号处中断。该函数忽略缩写字母大小写中的任何差异。属性指定句子开始符开胃菜名称-值对。

要指定以缩写分隔句子时的不同行为，请指定缩写作为一张桌子。表必须有命名的变量缩写而且使用,在那里缩写包含缩写和使用包含每个缩写的类型。的可能取值如下表所示使用，以及传递这些类型的缩写时函数的行为。

使用	行为	例子缩写	示例文本	检测到的句子
`常规的`	如果下一个单词是一个大写的句子开头，那么在结尾句号处中断。否则，不要在尾随期中断。	“appt。”	`“预约。我们到时见。”`	`“预约。"` `“我们到时见。”`
`常规的`	如果下一个单词是一个大写的句子开头，那么在结尾句号处中断。否则，不要在尾随期中断。	“appt。”	`“预约。今天。”`	`“预约。今天。”`
`内心的`	不要在拖尾期后折断。	“博士”	`“史密斯博士”。`	`“史密斯博士”。`
`参考`	如果下一个令牌不是一个数字，则在尾随句号处中断。如果下一个令牌是一个数字，那么不要在尾随句号处中断。	“图”。	`“见图3。”`	`“见图3。”`
`参考`	如果下一个令牌不是一个数字，则在尾随句号处中断。如果下一个令牌是一个数字，那么不要在尾随句号处中断。	“图”。	`“试试无花果。它们很好吃。”`	`“试试无花果吧。”` `“他们很好。”`
`单位`	如果前面的单词是一个数字，下面的单词是一个大写的句子开头，那么在后面的句点处中断。	“在。”	`“高度是30英寸。宽度是10英寸。”`	`“高度是30英寸。"` `“宽度是10英寸。”`
	如果前一个单词是一个数字，而后面的单词不是大写的，那么不要在后面的句号处换行。		`“这个项目是10英寸。宽。”`	`“这个项目是10英寸。宽。”`
	如果前一个单词不是一个数字，则在尾随句号处中断。		`“进来。坐下来。”`	`“进来。”` `“坐下。”`

的输出缩写函数。对于日语和韩语文本，缩写通常不会影响句子检测。

提示

默认情况下，该函数将单字母缩写(如" v ")或混合单字母和句号的标记(如"U.S.A.")视为常规缩写。你不需要包括这些缩写缩写．

数据类型:字符|字符串|表格|细胞

`DiscardKnownValues`- - - - - -选项放弃以前计算的详细信息
`假`(默认)|`真正的`

选项，丢弃先前计算的详细信息并重新计算它们，指定为真正的或假．

数据类型:逻辑

输出参数

全部折叠

`updatedDocuments`-更新文件
`tokenizedDocument`数组

更新后的文档，返回为tokenizedDocument数组中。来获取令牌详细信息updatedDocuments,使用tokenDetails．

算法

如果输入文档不包含句子细节，则函数首先运行addSentenceDetails．

版本历史

在R2018b中引入

另请参阅

addPartOfSpeechDetails

语法

描述

例子

为文档添加词性细节

获取日语文本的词性细节

获取德语文本的词性细节

输入参数

`文档`- - - - - -输入文档
`tokenizedDocument`数组

名称-值参数

`RetokenizeMethod`- - - - - -方法重新标记文档
`“词性”`(默认)|`“没有”`

`缩写`- - - - - -缩略语列表
字符串数组|特征向量|字符向量的单元格数组|表格

`DiscardKnownValues`- - - - - -选项放弃以前计算的详细信息
`假`(默认)|`真正的`

输出参数

`updatedDocuments`-更新文件
`tokenizedDocument`数组

更多关于

词性标记

算法

版本历史

另请参阅

主题

addPartOfSpeechDetails

语法

描述

例子

为文档添加词性细节

获取日语文本的词性细节

获取德语文本的词性细节

输入参数

文档- - - - - -输入文档tokenizedDocument数组

名称-值参数

RetokenizeMethod- - - - - -方法重新标记文档“词性”(默认)|“没有”

缩写- - - - - -缩略语列表字符串数组|特征向量|字符向量的单元格数组|表格

DiscardKnownValues- - - - - -选项放弃以前计算的详细信息假(默认)|真正的

输出参数

updatedDocuments-更新文件tokenizedDocument数组

更多关于

词性标记

算法

版本历史

另请参阅

主题

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`RetokenizeMethod`- - - - - -方法重新标记文档
`“词性”`(默认)|`“没有”`

`缩写`- - - - - -缩略语列表
字符串数组|特征向量|字符向量的单元格数组|表格

`DiscardKnownValues`- - - - - -选项放弃以前计算的详细信息
`假`(默认)|`真正的`

`updatedDocuments`-更新文件
`tokenizedDocument`数组