addPartOfSpeechDetails

向文档添加语音部分标签

全部折叠到页面中

句法

updateddocuments = addpartofspeechdetails（文档）

updatedDocuments = addPartOfSpeechDetails(文档名称、值)

描述

使用addPartOfSpeechDetails将语音部分添加到文档中。

该功能支持英语，日语，德语万博1manbetx和韩文文本。

例子

更新= addPartOfSpeechDetails (文档）在…中检测词类文档并更新令牌详细信息。默认情况下，该函数将介绍语音标记的文本。例如，该函数将单词“您”拆分为令牌“您”和“Re”。从...获得讲话细节更新,使用tokenDetails。

更新= addPartOfSpeechDetails (文档那名称，价值）使用一个或多个名称-值对参数指定其他选项。

小费

使用addPartOfSpeechDetails在使用之前降低那上那侵蚀那normalizeWords那removeWords,Removestopwords.函数作为addPartOfSpeechDetails使用由这些函数删除的信息。

例子

全部收缩

向文档添加词性细节

打开生活的脚本

加载示例数据。该文件sonnetspreprocessed.txt.txt.包含Precrocessed版本的莎士比亚的十四行诗。该文件每行包含一个十四行诗，单词由空格分隔。从中提取文本sonnetspreprocessed.txt.txt.，以换行符将文本拆分为文档，然后对文档进行标记。

filename =.“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

查看前几个令牌的令牌详细信息。

tdetails = tokenDetails(文件);头（Tdetails）

ans =.8×5表令牌DocumentNumber LineNumber类型语言  ___________ ______________ __________ _______ ________ " 美丽的“1 1字母在“生物“1 1字母在“欲望“1 1字母en”增加“1 1字母en”从而“1 1字母在“美丽“1 1字母在“玫瑰“1 1字母在“可能”1字母

使用介绍文档的言语部分addPartOfSpeechDetails功能。此功能首先将句子信息添加到文档中，然后将语音份额添加到返回的表中tokenDetails。查看最初几个令牌的更新令牌详细信息。

文档= addpartofspeechdetails（文件）;tdetails = tokenDetails(文件);头（Tdetails）

ans =.8×7表令牌DocumentNumber sendenceNumber LineNumber型语言Partofspeech ___________ _____________________________________________________trings en enders“1 1 1 1字母EN名词”增加“1 1 1字母EN名词“由此”1 1 1字母EN adverb“Beautys”1 1 1字母EN名词“玫瑰”1 1 1 1字母EN名词“可能”1 1 1字母EN辅助动词

获得日语文本的部分语音细节

打开生活的脚本

使用日文标记tokenizedDocument。

str = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が辉きを増している。”“駅駅までは远く，歩け歩け。”“远くの駅まで歩けない。”“すもももももももものうち。”];文档=令授权鳕（str）;

对于日文文本，您可以使用讲话细节tokenDetails。对于英文文本，必须先使用addPartOfSpeechDetails。

tdetails = tokenDetails(文件);头（Tdetails）

ans =.8×8表令牌DocumentNumber LineNumber PartOfSpeech引理实体类型语言  _______ ______________ __________ ___________ ________ ____________ _______ __________ " 恋“1 1字母是名词“恋“走眼”に“1 1”字母ja adpositionに“走眼”悩み“1 1字母是动词“悩む“走眼”、“1 1标点ja标点符号”、“走眼”苦しむ“1 1字母是动词“苦しむ“走眼”。“十一标点符号就是标点符号”。“走眼”恋“2 1字母是名词“恋“走眼”のの“2 1字母ja adposition走眼

获取德语文本的部分语音细节

打开生活的脚本

将德语文本标记为使用tokenizedDocument。

str = [“Guten Morgen。Wie Geht es dir？”“Heute Wird Ein Guter标签。”];文件= tokenizedDocument (str)

文档= 2x1令牌地区：8令牌：Guten Morgen。魏某geht ES目录 ？6个令牌：Heute Wird Ein Guter标签。

首先使用德语文本的言语细节的一部分addPartOfSpeechDetails。

文档= addpartofspeechdetails（文件）;

要查看语音细节的部分，请使用tokenDetails功能。

tdetails = tokenDetails(文件);头（Tdetails）

ans =.8×7表令牌DocumentNumber SentenceNumber LineNumber PartOfSpeech类型语言  ________ ______________ ______________ __________ ___________ ________ ____________ " 好“1 1 1字母de形容词“摩根”de名词1 1 1字母“”。1 1 1标点符号标点符号"Wie" 1 2 1个字母副词" get " 1 2 1个字母动词"es" 1 2 1个字母代词"dir" 1 2 1个字母代词"?"1 2 1标点再标点

输入参数

全部收缩

`文档`-输入文档
`tokenizedDocument`大批

输入文档，指定为tokenizedDocument数组中。

名称值对参数

指定可选的逗号分离对名称，价值论点。的名字是参数名称和价值是对应的值。的名字必须出现在引号内。您可以以任何顺序指定多个名称和值对参数name1，value1，...，namen，valuen。

例子：'DiscardKnownValues'，真实指定丢弃先前计算的详细信息并重新计算它们。

`“RetokenizeMethod”`-方法重新标记文档
`'部分演讲'`(默认)|`'没有任何'`

解冻文档的方法，指定为以下内容之一：

'部分演讲'- 将令牌转换为词性标记。该函数执行这些任务：
- 分离复合字。例如，拆分复合词“想”到令牌“想要”和”到“。这包括含有撇号的复合词。例如，函数拆分单词“别”到令牌“做”和“不”。
- 合并不与前令牌结束句子的时期。例如，合并令牌“先生”和“。”进入令牌“先生。”。
- 对于德语文本，合并跨越多个标记的缩写。例如，合并令牌“z”那“。”那“b”,“。”进入单个令牌“z。b .”。
- 合并到省略号中的延期运行。例如，合并三个实例“。”进入单个令牌“......”。
'没有任何'- 不要退回文件。

`'缩写'`-缩略语表
字符串数组|字符向量|字符向量的单元数组|表格

句子检测的缩写列表，指定为字符串数组，字符向量，字符向量的字符向量或表格数组。

如果输入文档不包含句子细节，则函数首先运行AddsentEnCentails.函数并指定缩写列表给出'缩写'。要指定句子检测的更多选项（例如，句子启动）使用AddsentEnCentails.使用前功能addPartOfSpeechDetails细节。

如果缩写是字符串数组，字符向量或字符矢量的单元格数组，那么该函数将这些函数视为常规缩写。如果下一个单词是一个大写句子启动器，那么函数在尾随时间内打破。该函数忽略了缩写的字母案例中的任何差异。使用该句子启动器指定初学者名称值对。

在缩写缩写时拆分句子时指定不同的行为，请指定缩写作为一个表。表必须有命名的变量缩写和使用，在哪里缩写包含缩写，和使用包含每个缩写的类型。下表描述了可能的值使用，以及传递这些类型的缩写时函数的行为。

使用	行为	例子缩写	示例文本	检测到的句子
`常规的`	如果下一个单词是大写的句子开头词，则在末尾句号处中断。否则，不要在尾期突破。	“appt。”	`“预订一本。我们会见面。”`	`”一位appt书。"` `“我们会见面。”`
`常规的`	如果下一个单词是大写的句子开头词，则在末尾句号处中断。否则，不要在尾期突破。	“appt。”	`”一位appt书。今天。”`	`”一位appt书。今天。”`
`内`	尾随期后不要打破。	“博士”	`“史密斯博士”。`	`“史密斯博士”。`
`参考`	如果下一个令牌不是数字，则在尾随时期中断。如果下一个令牌是数字，则不会在尾随时段中断。	“图”。	`“见图3.”`	`“见图3.”`
`参考`	如果下一个令牌不是数字，则在尾随时期中断。如果下一个令牌是数字，则不会在尾随时段中断。	“图”。	`“尝试一个图。他们很好。”`	`“尝试图。”` `“他们很好。”`
`单位`	如果上一词是数字，并且以下单词是大写句子启动器，则在尾随时期中断。	“在。”	`“高度是30英寸。宽度是10英寸。”`	`“高度是30英寸。"` `“宽度为10英寸”`
	如果上一词是数字，并且以下单词不大写，则不会在尾随时段中断。		`“这个项目是10英寸。宽。”`	`“这个项目是10英寸。宽。”`
	如果前一个单词不是数字，则在末尾句号处中断。		`“进来。坐下来。”`	`“进来。”` `“坐下。”`

默认值是输出缩写功能。对于日语和韩文文本，缩写通常不会影响句子检测。

小费

默认情况下，该函数处理单字母缩写，如“v”，或标记与单字母和句号混合，如“U.S.A.”作为常规缩写。中不需要包含这些缩写缩写。

数据类型：char|字符串|表格|细胞

`'DiscardKnownValues'`-丢弃先前计算的详细信息的选项
`错误的`(默认)|`真正的`

选项以丢弃先前计算的详细信息并重新编译，指定为真正的或错误的。

数据类型：逻辑

输出参数

全部收缩

`更新`——更新文档
`tokenizedDocument`大批

更新的文件，返回A.tokenizedDocument数组中。获取令牌详细信息更新,使用tokenDetails。

算法

如果输入文档不包含句子细节，则函数首先运行AddsentEnCentails.。

也可以看看

话题

在R2018B中介绍

addPartOfSpeechDetails

句法

描述

例子

向文档添加词性细节

获得日语文本的部分语音细节

获取德语文本的部分语音细节

输入参数

`文档`-输入文档
`tokenizedDocument`大批

名称值对参数

`“RetokenizeMethod”`-方法重新标记文档
`'部分演讲'`(默认)|`'没有任何'`

`'缩写'`-缩略语表
字符串数组|字符向量|字符向量的单元数组|表格

`'DiscardKnownValues'`-丢弃先前计算的详细信息的选项
`错误的`(默认)|`真正的`

输出参数

`更新`——更新文档
`tokenizedDocument`大批

更多关于

词性标记

算法

也可以看看

话题

文本分析工具箱文档

万博1manbetx

在Matlab中的文本分析入门

addPartOfSpeechDetails

句法

描述

例子

向文档添加词性细节

获得日语文本的部分语音细节

获取德语文本的部分语音细节

输入参数

文档-输入文档tokenizedDocument大批

名称值对参数

“RetokenizeMethod”-方法重新标记文档'部分演讲'(默认)|'没有任何'

'缩写'-缩略语表字符串数组|字符向量|字符向量的单元数组|表格

'DiscardKnownValues'-丢弃先前计算的详细信息的选项错误的(默认)|真正的

输出参数

更新——更新文档tokenizedDocument大批

更多关于

词性标记

算法

也可以看看

话题

文本分析工具箱文档

万博1manbetx

在Matlab中的文本分析入门

`文档`-输入文档
`tokenizedDocument`大批

`“RetokenizeMethod”`-方法重新标记文档
`'部分演讲'`(默认)|`'没有任何'`

`'缩写'`-缩略语表
字符串数组|字符向量|字符向量的单元数组|表格

`'DiscardKnownValues'`-丢弃先前计算的详细信息的选项
`错误的`(默认)|`真正的`

`更新`——更新文档
`tokenizedDocument`大批