addPartOfSpeechDetails
在文档中添加词性标签
描述
使用addPartOfSpeechDetails
向文档添加词性标签。
支持英文、日文、德文、韩文万博1manbetx。
检测语音中的词性updatedDocuments
= addPartOfSpeechDetails (文档
)文档
并更新令牌的详细信息。默认情况下,该函数为词性标记重新标记文本。例如,该函数将单词“you’re”拆分为标记“you”和“re”。来获取词性细节updatedDocuments
,使用tokenDetails
.
使用一个或多个名称-值对参数指定其他选项。updatedDocuments
= addPartOfSpeechDetails (文档
,名称,值
)
提示
使用addPartOfSpeechDetails
在使用较低的
,上
,erasePunctuation
,normalizeWords
,removeWords
,removeStopWords
函数作为addPartOfSpeechDetails
使用这些函数删除的信息。
例子
为文档添加词性细节
加载示例数据。该文件sonnetsPreprocessed.txt
包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,用空格分隔单词。从中提取文本sonnetsPreprocessed.txt
,以换行符将文本分割为文档,然后对文档进行标记。
文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData = split(str,换行符);documents = tokenizedDocument(textData);
查看前几个令牌的令牌细节。
tdetails = tokenDetails(文档);头(tdetails)
令牌DocumentNumber LineNumber Type Language ___________ ______________ __________ _______ ________ " fairrest " 1 1个字母en "creatures" 1 1个字母en "desire" 1 1个字母en "increase" 1 1个字母en "因此" 1 1个字母en " beauys " 1 1个字母en "rose" 1 1个字母en "might" 11 1个字母en
属性向文档添加词性细节addPartOfSpeechDetails
函数。这个函数首先向文档添加句子信息,然后将词性标记添加到返回的表中tokenDetails
.查看前几个令牌的更新令牌详细信息。
文档= addPartOfSpeechDetails(文档);tdetails = tokenDetails(文档);头(tdetails)
标记DocumentNumber SentenceNumber LineNumber类型语言parttofspeech ___________ ______________ ______________ __________ _______ ________ ______________“fairrest”1 1 1个字母形容词“creatures”1 1 1个字母名词“desire”1 1 1个字母名词“increase”1 1 1个字母名词“beauys”1 1 1个字母名词“rose”1 1 1个字母名词“might”1 1 1 1个字母助动词
获取日语文本的词性细节
使用标记化日语文本tokenizedDocument
.
STR = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が輝きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”“すもももももももものう。”];documents = tokenizedDocument(str);
对于日语文本,您可以使用tokenDetails
.对于英文文本,必须先使用addPartOfSpeechDetails
.
tdetails = tokenDetails(文档);头(tdetails)
令牌DocumentNumber LineNumber PartOfSpeech引理实体类型语言 _______ ______________ __________ ___________ ________ ____________ _______ __________ " 恋“1 1字母是名词“恋“走眼”に“1 1”字母ja adpositionに“走眼”悩み“1 1字母是动词“悩む“走眼”、“1 1标点ja标点符号”、“走眼”苦しむ“1 1字母是动词“苦しむ“走眼”。“11 1标点ja标点”。“非实体”恋“2个1字母ja名词”恋“非实体”の“2个1字母ja副词”の“非实体”
获取德语文本的词性细节
使用标记化德语文本tokenizedDocument
.
STR = [“早安。是谁干的?”“Heute wird ein guter Tag。”];documents = tokenizedDocument(str)
documents = 2x1 tokenizedDocument: 8个token: Guten Morgen。是谁的?6个标记:Heute wild ein guter Tag。
要获得德语文本的词性细节,首先使用addPartOfSpeechDetails
.
文档= addPartOfSpeechDetails(文档);
要查看词性详细信息,请使用tokenDetails
函数。
tdetails = tokenDetails(文档);头(tdetails)
令牌DocumentNumber SentenceNumber LineNumber PartOfSpeech类型语言 ________ ______________ ______________ __________ ___________ ________ ____________ " 好“1 1 1字母de形容词“摩根”de名词1 1 1字母“”。1 1 1标点符号“Wie”1 2 1个字母副词“geht”1 2 1个字母动词“es”1 2 1个字母代词“dir”1 2 1个字母代词“?”1 2 1标点de标点
输入参数
文档
- - - - - -输入文档
tokenizedDocument
数组
输入文档,指定为tokenizedDocument
数组中。
名称-值参数
指定可选参数对为Name1 = Value1,…,以=家
,在那里的名字
参数名称和价值
对应的值。名称-值参数必须出现在其他参数之后,但对的顺序无关紧要。
在R2021a之前,使用逗号分隔每个名称和值,并将其括起来的名字
在报价。
例子:“DiscardKnownValues”,真的
指定丢弃先前计算的详细信息并重新计算它们。
RetokenizeMethod
- - - - - -方法重新标记文档
“词性”
(默认)|“没有”
方法重新标记文档,指定为以下之一:
“词性”
-转换词性标记的标记。该函数执行以下任务:拆分复合词。例如,拆分复合词
“想”
进入代币“想要”
而且”到“
.这包括含有撇号的复合词。例如,该函数拆分单词“不要”
进入代币“做”
而且“不”
.合并不以前面标记结束的句点。例如,合并令牌
“先生”
而且“。”
代币“先生”
.对于德语文本,合并跨越多个标记的缩写。例如,合并令牌
“z”
,“。”
,“B”
,“。”
变成单个令牌“z。b .”
.将周期合并为省略号。例如,合并的三个实例
“。”
变成单个令牌“…”
.
“没有”
-不要重新标记文档。
缩写
- - - - - -缩略语列表
字符串数组|特征向量|字符向量的单元格数组|表格
用于句子检测的缩写列表,指定为字符串数组、字符向量、字符向量的单元格数组或表。
如果输入文档不包含句子细节,则函数首先运行addSentenceDetails
函数的缩写列表“缩写”
.要为句子检测指定更多选项(例如,句子开头),请使用addSentenceDetails
使用前的功能addPartOfSpeechDetails
细节。
如果缩写
是字符串数组、字符向量或字符向量的单元格数组,则函数将这些视为正则缩写。如果下一个单词是大写的句子开头,则函数在结尾句号处中断。该函数忽略缩写字母大小写中的任何差异。属性指定句子开始符开胃菜
名称-值对。
要指定以缩写分隔句子时的不同行为,请指定缩写
作为一张桌子。表必须有命名的变量缩写
而且使用
,在那里缩写
包含缩写和使用
包含每个缩写的类型。的可能取值如下表所示使用
,以及传递这些类型的缩写时函数的行为。
使用 | 行为 | 例子缩写 | 示例文本 | 检测到的句子 |
---|---|---|---|---|
常规的 |
如果下一个单词是一个大写的句子开头,那么在结尾句号处中断。否则,不要在尾随期中断。 | “appt。” | “预约。我们到时见。” |
|
“预约。今天。” |
“预约。今天。” |
|||
内心的 |
不要在拖尾期后折断。 | “博士” | “史密斯博士”。 |
“史密斯博士”。 |
参考 |
如果下一个令牌不是一个数字,则在尾随句号处中断。如果下一个令牌是一个数字,那么不要在尾随句号处中断。 | “图”。 | “见图3。” |
“见图3。” |
“试试无花果。它们很好吃。” |
|
|||
单位 |
如果前面的单词是一个数字,下面的单词是一个大写的句子开头,那么在后面的句点处中断。 | “在。” | “高度是30英寸。宽度是10英寸。” |
|
如果前一个单词是一个数字,而后面的单词不是大写的,那么不要在后面的句号处换行。 | “这个项目是10英寸。宽。” |
“这个项目是10英寸。宽。” |
||
如果前一个单词不是一个数字,则在尾随句号处中断。 | “进来。坐下来。” |
|
的输出缩写
函数。对于日语和韩语文本,缩写通常不会影响句子检测。
提示
默认情况下,该函数将单字母缩写(如" v ")或混合单字母和句号的标记(如"U.S.A.")视为常规缩写。你不需要包括这些缩写缩写
.
数据类型:字符
|字符串
|表格
|细胞
DiscardKnownValues
- - - - - -选项放弃以前计算的详细信息
假
(默认)|真正的
选项,丢弃先前计算的详细信息并重新计算它们,指定为真正的
或假
.
数据类型:逻辑
输出参数
updatedDocuments
-更新文件
tokenizedDocument
数组
更新后的文档,返回为tokenizedDocument
数组中。来获取令牌详细信息updatedDocuments
,使用tokenDetails
.
更多关于
词性标记
的addPartOfSpeechDetails
函数返回的表中添加词性标记tokenDetails
函数。这个函数用一个类别标记标记每个令牌,该类名是以下类名之一:
形容词
——形容词adposition
——Adposition副词
——副词助动词
-助动词coord-conjunction
-协调连接决定因素
——决定因素感叹词
——感叹词名词
- - - - - -名词数字
——数字粒子
——粒子代词
——代词专有名词
-专有名词标点符号
(标点符号subord-conjunction
-从属连词象征
——象征动词
——动词其他
——其他
算法
如果输入文档不包含句子细节,则函数首先运行addSentenceDetails
.
版本历史
在R2018b中引入
Abrir比如
Tiene una versión modificada de este ejemplo。¿Desea abrir este ejemplo con sus modificaciones?
MATLAB突击队
Ha hecho clic en unenlace que对应一个este commando de MATLAB:
弹射突击队introduciéndolo en la ventana de commandos de MATLAB。Los navegadores web no permission comandos de MATLAB。
您也可以从以下列表中选择一个网站:
如何获得最佳的网站性能
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。