主要内容

addPartOfSpeechDetails

在文档中添加词性标签

描述

使用addPartOfSpeechDetails向文档添加词性标签。

支持英文、日文、德文、韩文万博1manbetx。

例子

updatedDocuments= addPartOfSpeechDetails (文档检测语音中的词性文档并更新令牌的详细信息。默认情况下,该函数为词性标记重新标记文本。例如,该函数将单词“you’re”拆分为标记“you”和“re”。来获取词性细节updatedDocuments,使用tokenDetails

updatedDocuments= addPartOfSpeechDetails (文档名称,值使用一个或多个名称-值对参数指定其他选项。

提示

使用addPartOfSpeechDetails在使用较低的erasePunctuationnormalizeWordsremoveWords,removeStopWords函数作为addPartOfSpeechDetails使用这些函数删除的信息。

例子

全部折叠

加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,用空格分隔单词。从中提取文本sonnetsPreprocessed.txt,以换行符将文本分割为文档,然后对文档进行标记。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData = split(str,换行符);documents = tokenizedDocument(textData);

查看前几个令牌的令牌细节。

tdetails = tokenDetails(文档);头(tdetails)
令牌DocumentNumber LineNumber Type Language ___________ ______________ __________ _______ ________ " fairrest " 1 1个字母en "creatures" 1 1个字母en "desire" 1 1个字母en "increase" 1 1个字母en "因此" 1 1个字母en " beauys " 1 1个字母en "rose" 1 1个字母en "might" 11 1个字母en

属性向文档添加词性细节addPartOfSpeechDetails函数。这个函数首先向文档添加句子信息,然后将词性标记添加到返回的表中tokenDetails.查看前几个令牌的更新令牌详细信息。

文档= addPartOfSpeechDetails(文档);tdetails = tokenDetails(文档);头(tdetails)
标记DocumentNumber SentenceNumber LineNumber类型语言parttofspeech ___________ ______________ ______________ __________ _______ ________ ______________“fairrest”1 1 1个字母形容词“creatures”1 1 1个字母名词“desire”1 1 1个字母名词“increase”1 1 1个字母名词“beauys”1 1 1个字母名词“rose”1 1 1个字母名词“might”1 1 1 1个字母助动词

使用标记化日语文本tokenizedDocument

STR = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が輝きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”“すもももももももものう。”];documents = tokenizedDocument(str);

对于日语文本,您可以使用tokenDetails.对于英文文本,必须先使用addPartOfSpeechDetails

tdetails = tokenDetails(文档);头(tdetails)
令牌DocumentNumber LineNumber PartOfSpeech引理实体类型语言  _______ ______________ __________ ___________ ________ ____________ _______ __________ " 恋“1 1字母是名词“恋“走眼”に“1 1”字母ja adpositionに“走眼”悩み“1 1字母是动词“悩む“走眼”、“1 1标点ja标点符号”、“走眼”苦しむ“1 1字母是动词“苦しむ“走眼”。“11 1标点ja标点”。“非实体”恋“2个1字母ja名词”恋“非实体”の“2个1字母ja副词”の“非实体”

使用标记化德语文本tokenizedDocument

STR = [“早安。是谁干的?”“Heute wird ein guter Tag。”];documents = tokenizedDocument(str)
documents = 2x1 tokenizedDocument: 8个token: Guten Morgen。是谁的?6个标记:Heute wild ein guter Tag。

要获得德语文本的词性细节,首先使用addPartOfSpeechDetails

文档= addPartOfSpeechDetails(文档);

要查看词性详细信息,请使用tokenDetails函数。

tdetails = tokenDetails(文档);头(tdetails)
令牌DocumentNumber SentenceNumber LineNumber PartOfSpeech类型语言  ________ ______________ ______________ __________ ___________ ________ ____________ " 好“1 1 1字母de形容词“摩根”de名词1 1 1字母“”。1 1 1标点符号“Wie”1 2 1个字母副词“geht”1 2 1个字母动词“es”1 2 1个字母代词“dir”1 2 1个字母代词“?”1 2 1标点de标点

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组中。

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名称-值参数必须出现在其他参数之后,但对的顺序无关紧要。

在R2021a之前,使用逗号分隔每个名称和值,并将其括起来的名字在报价。

例子:“DiscardKnownValues”,真的指定丢弃先前计算的详细信息并重新计算它们。

方法重新标记文档,指定为以下之一:

  • “词性”-转换词性标记的标记。该函数执行以下任务:

    • 拆分复合词。例如,拆分复合词“想”进入代币“想要”而且”到“.这包括含有撇号的复合词。例如,该函数拆分单词“不要”进入代币“做”而且“不”

    • 合并不以前面标记结束的句点。例如,合并令牌“先生”而且“。”代币“先生”

    • 对于德语文本,合并跨越多个标记的缩写。例如,合并令牌“z”“。”“B”,“。”变成单个令牌“z。b .”

    • 将周期合并为省略号。例如,合并的三个实例“。”变成单个令牌“…”

  • “没有”-不要重新标记文档。

用于句子检测的缩写列表,指定为字符串数组、字符向量、字符向量的单元格数组或表。

如果输入文档不包含句子细节,则函数首先运行addSentenceDetails函数的缩写列表“缩写”.要为句子检测指定更多选项(例如,句子开头),请使用addSentenceDetails使用前的功能addPartOfSpeechDetails细节。

如果缩写是字符串数组、字符向量或字符向量的单元格数组,则函数将这些视为正则缩写。如果下一个单词是大写的句子开头,则函数在结尾句号处中断。该函数忽略缩写字母大小写中的任何差异。属性指定句子开始符开胃菜名称-值对。

要指定以缩写分隔句子时的不同行为,请指定缩写作为一张桌子。表必须有命名的变量缩写而且使用,在那里缩写包含缩写和使用包含每个缩写的类型。的可能取值如下表所示使用,以及传递这些类型的缩写时函数的行为。

使用 行为 例子缩写 示例文本 检测到的句子
常规的 如果下一个单词是一个大写的句子开头,那么在结尾句号处中断。否则,不要在尾随期中断。 “appt。” “预约。我们到时见。”

“预约。"

“我们到时见。”

“预约。今天。” “预约。今天。”
内心的 不要在拖尾期后折断。 “博士” “史密斯博士”。 “史密斯博士”。
参考 如果下一个令牌不是一个数字,则在尾随句号处中断。如果下一个令牌是一个数字,那么不要在尾随句号处中断。 “图”。 “见图3。” “见图3。”
“试试无花果。它们很好吃。”

“试试无花果吧。”

“他们很好。”

单位 如果前面的单词是一个数字,下面的单词是一个大写的句子开头,那么在后面的句点处中断。 “在。” “高度是30英寸。宽度是10英寸。”

“高度是30英寸。"

“宽度是10英寸。”

如果前一个单词是一个数字,而后面的单词不是大写的,那么不要在后面的句号处换行。 “这个项目是10英寸。宽。” “这个项目是10英寸。宽。”
如果前一个单词不是一个数字,则在尾随句号处中断。 “进来。坐下来。”

“进来。”

“坐下。”

的输出缩写函数。对于日语和韩语文本,缩写通常不会影响句子检测。

提示

默认情况下,该函数将单字母缩写(如" v ")或混合单字母和句号的标记(如"U.S.A.")视为常规缩写。你不需要包括这些缩写缩写

数据类型:字符|字符串|表格|细胞

选项,丢弃先前计算的详细信息并重新计算它们,指定为真正的

数据类型:逻辑

输出参数

全部折叠

更新后的文档,返回为tokenizedDocument数组中。来获取令牌详细信息updatedDocuments,使用tokenDetails

更多关于

全部折叠

词性标记

addPartOfSpeechDetails函数返回的表中添加词性标记tokenDetails函数。这个函数用一个类别标记标记每个令牌,该类名是以下类名之一:

  • 形容词——形容词

  • adposition——Adposition

  • 副词——副词

  • 助动词-助动词

  • coord-conjunction-协调连接

  • 决定因素——决定因素

  • 感叹词——感叹词

  • 名词- - - - - -名词

  • 数字——数字

  • 粒子——粒子

  • 代词——代词

  • 专有名词-专有名词

  • 标点符号(标点符号

  • subord-conjunction-从属连词

  • 象征——象征

  • 动词——动词

  • 其他——其他

算法

如果输入文档不包含句子细节,则函数首先运行addSentenceDetails

版本历史

在R2018b中引入