主要内容

addPartOfSpeechDetails

向文档添加词性标记

描述

使用addPartOfSpeechDetails向文档添加词性标记。

支持英文、日文、德文、韩文万博1manbetx文本。

例子

updatedDocuments= addPartOfSpeechDetails (文档中检测词性文档并更新令牌详细信息。默认情况下,该函数为词性标记重标记文本。例如,该函数将单词“you’re”分成标记“you”和“’re”。来获取词性细节updatedDocuments,使用tokenDetails

updatedDocuments= addPartOfSpeechDetails (文档名称,值使用一个或多个名称-值对参数指定其他选项。

提示

使用addPartOfSpeechDetails在使用之前较低的erasePunctuationnormalizeWordsremoveWords,removeStopWords函数作为addPartOfSpeechDetails使用被这些函数删除的信息。

例子

全部折叠

加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,词之间用空格隔开。从中提取文本sonnetsPreprocessed.txt,以换行符将文本拆分为文档,然后对文档进行标记。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

查看前几个令牌的令牌详细信息。

tdetails = tokenDetails(文件);头(tdetails)
Token DocumentNumber LineNumber Type Language ___________ ______________ __________ _______ ________ "fairest" 1 1个字母en "creatures" 1 1个字母en "desire" 1 1个字母en "increase" 1 1个字母en " therefore " 1 1个字母en " beauys " 1 1个字母en "rose" 1 1个字母en "might" 1 1个字母en " en "

方法向文档添加词性细节addPartOfSpeechDetails函数。该函数首先向文档添加句子信息,然后向返回的表添加词性标记tokenDetails.查看前几个令牌的更新令牌详细信息。

= addPartOfSpeechDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails)
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech ___________ ______________ ______________ __________ _______ ________ ______________ "fairest" 1 1 1个字母en形容词"creatures" 1 1 1个字母en名词"desire" 1 1 1个字母en名词"increase" 1 1 1个字母en名词"因此" 1 1 1个字母en副词" beauys " 1 1 1个字母en名词"rose" 1 1 1个字母en名词"might" 1 1 1个字母en助动词

将日语文本的符号化tokenizedDocument

str = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が輝きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”“すもももももももものう。”];文件= tokenizedDocument (str);

对于日文文本,您可以使用tokenDetails.对于英文文本,必须首先使用addPartOfSpeechDetails

tdetails = tokenDetails(文件);头(tdetails)
令牌DocumentNumber LineNumber PartOfSpeech引理实体类型语言  _______ ______________ __________ ___________ ________ ____________ _______ __________ " 恋“1 1字母是名词“恋“走眼”に“1 1”字母ja adpositionに“走眼”悩み“1 1字母是动词“悩む“走眼”、“1 1标点ja标点符号”、“走眼”苦しむ“1 1字母是动词“苦しむ“走眼”。“1 1 punctuation ja punctuation”。“非实体”恋2 1个字母名词“恋”非实体“の”2 1个字母adposition“の”非实体

用标记化德语文本tokenizedDocument

str = [“早安。我得到了什么?”“Heute wird ein guter Tag。”];文件= tokenizedDocument (str)
documents = 2x1 tokenizedDocument: 8 token: Guten Morgen。我得到了dir ?6代币:Heute weird ein guter Tag。

要获得德语文本的词性细节,首先使用addPartOfSpeechDetails

= addPartOfSpeechDetails文件(文档);

要查看词性细节,请使用tokenDetails函数。

tdetails = tokenDetails(文件);头(tdetails)
令牌DocumentNumber SentenceNumber LineNumber PartOfSpeech类型语言  ________ ______________ ______________ __________ ___________ ________ ____________ " 好“1 1 1字母de形容词“摩根”de名词1 1 1字母“”。1 1 1标点符号“Wie”1 2 1个字母副词“get”1 2 1个字母动词“es”1 2 1个字母代词“dir”1 2 1个字母代词“?”1 2 1标点de标点

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组中。

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名-值参数必须出现在其他参数之后,但对的顺序并不重要。

在R2021a之前,名称和值之间用逗号隔开,并括起来的名字在报价。

例子:“DiscardKnownValues”,真的指定丢弃以前计算的详细信息并重新计算它们。

方法重标记文档,指定为以下之一:

  • “词性”-转换词性标记的标记。函数执行以下任务:

    • 分离复合字。例如,拆分复合词“想”到令牌“想要””到“.这包括包含撇号的复合词。例如,该函数拆分单词“不要”到令牌“做”“不”

    • 合并不以前面的标记结束句子的句点。例如,合并令牌“先生”“。”到令牌“先生”

    • 对于德语文本,合并跨越多个标记的缩写。例如,合并令牌“z”“。”“B”,“。”到单个令牌中“z。b .”

    • 将周期合并为椭圆。例如,合并三个实例“。”到单个令牌中“…”

  • “没有”-不要重新标记文档。

用于句子检测的缩写列表,指定为字符串数组、字符向量、字符向量的单元格数组或表格。

如果输入文档不包含句子细节,则该函数首先运行addSentenceDetails函数并指定给出的缩写列表“缩写”.为句子检测指定更多选项(例如,句子启动器),请使用addSentenceDetails函数使用前addPartOfSpeechDetails细节。

如果缩写是字符串数组、字符向量或字符向量的单元格数组,则函数将它们视为正则缩写。如果下一个单词是一个大写的句子开头,那么函数在结尾句号处中断。该函数忽略缩写字母大小写的任何差异。方法指定句子开头开胃菜名称-值对。

要指定在缩略语分离句子时的不同行为,请指定缩写作为一个表。表必须有命名的变量缩写使用,在那里缩写包含缩写和使用包含每个缩写的类型。的可能值如下表所示使用,以及传递这些类型的缩写时函数的行为。

使用 行为 例子缩写 示例文本 检测到的句子
常规的 如果下一个单词是一个大写的句子开头,那么在结尾部分中断。否则,不要在尾期中断。 “appt。” ”一位appt书。我们会满足。”

”一位appt书。"

“我们将满足。”

”一位appt书。今天。” ”一位appt书。今天。”
内心的 在跟踪期后不要中断。 “博士” “史密斯博士”。 “史密斯博士”。
参考 如果下一个令牌不是一个数字,则在尾随句号处中断。如果下一个令牌是一个数字,那么不要在末尾中断。 “图”。 见图3。 见图3。
“尝尝无花果吧,它们很好吃。”

“试试无花果。”

“他们很好。”

单位 如果前面的单词是一个数字,下面的单词是一个大写的句子开头,那么在结尾时中断。 “在。” “高度是30英寸。宽度是10英寸。”

“高度是30英寸。"

“宽度是10英寸。”

如果前面的单词是一个数字,而后面的单词没有大写,那么不要在末尾停顿。 “这个项目是10英寸。宽。” “这个项目是10英寸。宽。”
如果前面的单词不是数字,则在后面的句号处中断。 “进来。坐下来。”

“进来。”

“坐下。”

的输出缩写函数。对于日语和韩语文本,缩略语通常不会影响句子检测。

提示

默认情况下,该函数将单个字母缩写,如“v”,或将单个字母和句点混合的标记,如“U.S.A.”视为常规缩写。你不需要包括这些缩写缩写

数据类型:字符|字符串|表格|细胞

选项丢弃以前计算的详细信息并重新计算它们,指定为真正的

数据类型:逻辑

输出参数

全部折叠

更新的文件,作为一个返回tokenizedDocument数组中。获取令牌详细信息updatedDocuments,使用tokenDetails

更多关于

全部折叠

词性标记

addPartOfSpeechDetails方法返回的表中添加词性标记tokenDetails函数。函数用类别标记标记每个标记,类别标记具有以下类名之一:

  • 形容词——形容词

  • adposition——Adposition

  • 副词——副词

  • 助动词——助动词

  • coord-conjunction——并列连接词

  • 决定因素——决定因素

  • 感叹词——感叹词

  • 名词- - - - - -名词

  • 数字——数字

  • 粒子——粒子

  • 代词——代词

  • 专有名词(专有名词

  • 标点符号(标点符号

  • subord-conjunction- - - - - -从属conjucntion

  • 象征——象征

  • 动词——动词

  • 其他——其他

算法

如果输入文档不包含句子细节,则该函数首先运行addSentenceDetails

版本历史

介绍了R2018b