addPartOfSpeechDetails

向文档添加词性标记

在页面中全部折叠

语法

updatedDocuments = addPartOfSpeechDetails(文档)

updatedDocuments = addPartOfSpeechDetails(文档名称、值)

描述

使用addPartOfSpeechDetails向文档添加词性标记。

支持英文、日文、德文、韩文万博1manbetx文本。

例子

updatedDocuments= addPartOfSpeechDetails (文档）中检测词性文档并更新令牌详细信息。默认情况下，该函数为词性标记重标记文本。例如，该函数将单词“you’re”分成标记“you”和“’re”。来获取词性细节updatedDocuments,使用tokenDetails．

updatedDocuments= addPartOfSpeechDetails (文档，名称,值）使用一个或多个名称-值对参数指定其他选项。

提示

使用addPartOfSpeechDetails在使用之前较低的，上，erasePunctuation，normalizeWords，removeWords,removeStopWords函数作为addPartOfSpeechDetails使用被这些函数删除的信息。

例子

全部折叠

为文档添加词性细节

打开生活的脚本

加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗，词之间用空格隔开。从中提取文本sonnetsPreprocessed.txt，以换行符将文本拆分为文档，然后对文档进行标记。

文件名=“sonnetsPreprocessed.txt”；str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

查看前几个令牌的令牌详细信息。

tdetails = tokenDetails(文件);头(tdetails)

Token DocumentNumber LineNumber Type Language ___________ ______________ __________ _______ ________ "fairest" 1 1个字母en "creatures" 1 1个字母en "desire" 1 1个字母en "increase" 1 1个字母en " therefore " 1 1个字母en " beauys " 1 1个字母en "rose" 1 1个字母en "might" 1 1个字母en " en "

方法向文档添加词性细节addPartOfSpeechDetails函数。该函数首先向文档添加句子信息，然后向返回的表添加词性标记tokenDetails．查看前几个令牌的更新令牌详细信息。

= addPartOfSpeechDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails)

Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech ___________ ______________ ______________ __________ _______ ________ ______________ "fairest" 1 1 1个字母en形容词"creatures" 1 1 1个字母en名词"desire" 1 1 1个字母en名词"increase" 1 1 1个字母en名词"因此" 1 1 1个字母en副词" beauys " 1 1 1个字母en名词"rose" 1 1 1个字母en名词"might" 1 1 1个字母en助动词

获取日语文本的词性细节

打开生活的脚本

将日语文本的符号化tokenizedDocument．

str = [“恋に悩み，苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き，瞬いている。”“空の星が輝きを増している。”“駅までは遠くて，歩けない。”“遠くの駅まで歩けない。”“すもももももももものう。”];文件= tokenizedDocument (str);

对于日文文本，您可以使用tokenDetails．对于英文文本，必须首先使用addPartOfSpeechDetails．

tdetails = tokenDetails(文件);头(tdetails)

令牌DocumentNumber LineNumber PartOfSpeech引理实体类型语言  _______ ______________ __________ ___________ ________ ____________ _______ __________ " 恋“1 1字母是名词“恋“走眼”に“1 1”字母ja adpositionに“走眼”悩み“1 1字母是动词“悩む“走眼”、“1 1标点ja标点符号”、“走眼”苦しむ“1 1字母是动词“苦しむ“走眼”。“1 1 punctuation ja punctuation”。“非实体”恋2 1个字母名词“恋”非实体“の”2 1个字母adposition“の”非实体

获取德语文本的词性细节

打开生活的脚本

用标记化德语文本tokenizedDocument．

str = [“早安。我得到了什么?”“Heute wird ein guter Tag。”];文件= tokenizedDocument (str)

documents = 2x1 tokenizedDocument: 8 token: Guten Morgen。我得到了dir ?6代币:Heute weird ein guter Tag。

要获得德语文本的词性细节，首先使用addPartOfSpeechDetails．

= addPartOfSpeechDetails文件(文档);

要查看词性细节，请使用tokenDetails函数。

tdetails = tokenDetails(文件);头(tdetails)

令牌DocumentNumber SentenceNumber LineNumber PartOfSpeech类型语言  ________ ______________ ______________ __________ ___________ ________ ____________ " 好“1 1 1字母de形容词“摩根”de名词1 1 1字母“”。1 1 1标点符号“Wie”1 2 1个字母副词“get”1 2 1个字母动词“es”1 2 1个字母代词“dir”1 2 1个字母代词“?”1 2 1标点de标点

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文档，指定为tokenizedDocument数组中。

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名-值参数必须出现在其他参数之后，但对的顺序并不重要。

在R2021a之前，名称和值之间用逗号隔开，并括起来的名字在报价。

例子:“DiscardKnownValues”,真的指定丢弃以前计算的详细信息并重新计算它们。

`RetokenizeMethod`- - - - - -方法重标记文档
`“词性”`(默认)|`“没有”`

方法重标记文档，指定为以下之一:

“词性”-转换词性标记的标记。函数执行以下任务:
- 分离复合字。例如，拆分复合词“想”到令牌“想要”和”到“．这包括包含撇号的复合词。例如，该函数拆分单词“不要”到令牌“做”和“不”．
- 合并不以前面的标记结束句子的句点。例如，合并令牌“先生”和“。”到令牌“先生”．
- 对于德语文本，合并跨越多个标记的缩写。例如，合并令牌“z”，“。”，“B”,“。”到单个令牌中“z。b .”．
- 将周期合并为椭圆。例如，合并三个实例“。”到单个令牌中“…”．
“没有”-不要重新标记文档。

`缩写`- - - - - -的缩写列表
字符串数组|特征向量|字符向量的单元格数组|表格

用于句子检测的缩写列表，指定为字符串数组、字符向量、字符向量的单元格数组或表格。

如果输入文档不包含句子细节，则该函数首先运行addSentenceDetails函数并指定给出的缩写列表“缩写”．为句子检测指定更多选项(例如，句子启动器)，请使用addSentenceDetails函数使用前addPartOfSpeechDetails细节。

如果缩写是字符串数组、字符向量或字符向量的单元格数组，则函数将它们视为正则缩写。如果下一个单词是一个大写的句子开头，那么函数在结尾句号处中断。该函数忽略缩写字母大小写的任何差异。方法指定句子开头开胃菜名称-值对。

要指定在缩略语分离句子时的不同行为，请指定缩写作为一个表。表必须有命名的变量缩写和使用,在那里缩写包含缩写和使用包含每个缩写的类型。的可能值如下表所示使用，以及传递这些类型的缩写时函数的行为。

使用	行为	例子缩写	示例文本	检测到的句子
`常规的`	如果下一个单词是一个大写的句子开头，那么在结尾部分中断。否则，不要在尾期中断。	“appt。”	`”一位appt书。我们会满足。”`	`”一位appt书。"` `“我们将满足。”`
`常规的`	如果下一个单词是一个大写的句子开头，那么在结尾部分中断。否则，不要在尾期中断。	“appt。”	`”一位appt书。今天。”`	`”一位appt书。今天。”`
`内心的`	在跟踪期后不要中断。	“博士”	`“史密斯博士”。`	`“史密斯博士”。`
`参考`	如果下一个令牌不是一个数字，则在尾随句号处中断。如果下一个令牌是一个数字，那么不要在末尾中断。	“图”。	`见图3。`	`见图3。`
`参考`	如果下一个令牌不是一个数字，则在尾随句号处中断。如果下一个令牌是一个数字，那么不要在末尾中断。	“图”。	`“尝尝无花果吧，它们很好吃。”`	`“试试无花果。”` `“他们很好。”`
`单位`	如果前面的单词是一个数字，下面的单词是一个大写的句子开头，那么在结尾时中断。	“在。”	`“高度是30英寸。宽度是10英寸。”`	`“高度是30英寸。"` `“宽度是10英寸。”`
	如果前面的单词是一个数字，而后面的单词没有大写，那么不要在末尾停顿。		`“这个项目是10英寸。宽。”`	`“这个项目是10英寸。宽。”`
	如果前面的单词不是数字，则在后面的句号处中断。		`“进来。坐下来。”`	`“进来。”` `“坐下。”`

的输出缩写函数。对于日语和韩语文本，缩略语通常不会影响句子检测。

提示

默认情况下，该函数将单个字母缩写，如“v”，或将单个字母和句点混合的标记，如“U.S.A.”视为常规缩写。你不需要包括这些缩写缩写．

数据类型:字符|字符串|表格|细胞

`DiscardKnownValues`- - - - - -选项放弃以前计算的详细信息
`假`(默认)|`真正的`

选项丢弃以前计算的详细信息并重新计算它们，指定为真正的或假．

数据类型:逻辑

输出参数

全部折叠

`updatedDocuments`——更新文档
`tokenizedDocument`数组

更新的文件，作为一个返回tokenizedDocument数组中。获取令牌详细信息updatedDocuments,使用tokenDetails．

算法

如果输入文档不包含句子细节，则该函数首先运行addSentenceDetails．

版本历史

介绍了R2018b

另请参阅

addPartOfSpeechDetails

语法

描述

例子

为文档添加词性细节

获取日语文本的词性细节

获取德语文本的词性细节

输入参数

`文档`- - - - - -输入文档
`tokenizedDocument`数组

名称-值参数

`RetokenizeMethod`- - - - - -方法重标记文档
`“词性”`(默认)|`“没有”`

`缩写`- - - - - -的缩写列表
字符串数组|特征向量|字符向量的单元格数组|表格

`DiscardKnownValues`- - - - - -选项放弃以前计算的详细信息
`假`(默认)|`真正的`

输出参数

`updatedDocuments`——更新文档
`tokenizedDocument`数组

更多关于

词性标记

算法

版本历史

另请参阅

主题

addPartOfSpeechDetails

语法

描述

例子

为文档添加词性细节

获取日语文本的词性细节

获取德语文本的词性细节

输入参数

文档- - - - - -输入文档tokenizedDocument数组

名称-值参数

RetokenizeMethod- - - - - -方法重标记文档“词性”(默认)|“没有”

缩写- - - - - -的缩写列表字符串数组|特征向量|字符向量的单元格数组|表格

DiscardKnownValues- - - - - -选项放弃以前计算的详细信息假(默认)|真正的

输出参数

updatedDocuments——更新文档tokenizedDocument数组

更多关于

词性标记

算法

版本历史

另请参阅

主题

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`RetokenizeMethod`- - - - - -方法重标记文档
`“词性”`(默认)|`“没有”`

`缩写`- - - - - -的缩写列表
字符串数组|特征向量|字符向量的单元格数组|表格

`DiscardKnownValues`- - - - - -选项放弃以前计算的详细信息
`假`(默认)|`真正的`

`updatedDocuments`——更新文档
`tokenizedDocument`数组