主要内容

addPartOfSpeechDetails

向文档添加语音部分标签

描述

使用addPartOfSpeechDetails将语音部分添加到文档中。

该功能支持英语,日语,德语万博1manbetx和韩文文本。

例子

更新= addPartOfSpeechDetails (文档在…中检测词类文档并更新令牌详细信息。默认情况下,该函数将介绍语音标记的文本。例如,该函数将单词“您”拆分为令牌“您”和“Re”。从...获得讲话细节更新,使用tokenDetails

更新= addPartOfSpeechDetails (文档名称,价值使用一个或多个名称-值对参数指定其他选项。

小费

使用addPartOfSpeechDetails在使用之前降低侵蚀normalizeWordsremoveWords,Removestopwords.函数作为addPartOfSpeechDetails使用由这些函数删除的信息。

例子

全部收缩

加载示例数据。该文件sonnetspreprocessed.txt.txt.包含Precrocessed版本的莎士比亚的十四行诗。该文件每行包含一个十四行诗,单词由空格分隔。从中提取文本sonnetspreprocessed.txt.txt.,以换行符将文本拆分为文档,然后对文档进行标记。

filename =.“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

查看前几个令牌的令牌详细信息。

tdetails = tokenDetails(文件);头(Tdetails)
ans =.8×5表令牌DocumentNumber LineNumber类型语言  ___________ ______________ __________ _______ ________ " 美丽的“1 1字母在“生物“1 1字母在“欲望“1 1字母en”增加“1 1字母en”从而“1 1字母在“美丽“1 1字母在“玫瑰“1 1字母在“可能”1字母

使用介绍文档的言语部分addPartOfSpeechDetails功能。此功能首先将句子信息添加到文档中,然后将语音份额添加到返回的表中tokenDetails。查看最初几个令牌的更新令牌详细信息。

文档= addpartofspeechdetails(文件);tdetails = tokenDetails(文件);头(Tdetails)
ans =.8×7表令牌DocumentNumber sendenceNumber LineNumber型语言Partofspeech ___________ _____________________________________________________trings en enders“1 1 1 1字母EN名词”增加“1 1 1字母EN名词“由此”1 1 1字母EN adverb“Beautys”1 1 1字母EN名词“玫瑰”1 1 1 1字母EN名词“可能”1 1 1字母EN辅助动词

使用日文标记tokenizedDocument

str = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が辉きを増している。”“駅駅までは远く,歩け歩け。”“远くの駅まで歩けない。”“すもももももももものうち。”];文档=令授权鳕(str);

对于日文文本,您可以使用讲话细节tokenDetails。对于英文文本,必须先使用addPartOfSpeechDetails

tdetails = tokenDetails(文件);头(Tdetails)
ans =.8×8表令牌DocumentNumber LineNumber PartOfSpeech引理实体类型语言  _______ ______________ __________ ___________ ________ ____________ _______ __________ " 恋“1 1字母是名词“恋“走眼”に“1 1”字母ja adpositionに“走眼”悩み“1 1字母是动词“悩む“走眼”、“1 1标点ja标点符号”、“走眼”苦しむ“1 1字母是动词“苦しむ“走眼”。“十一标点符号就是标点符号”。“走眼”恋“2 1字母是名词“恋“走眼”のの“2 1字母ja adposition走眼

将德语文本标记为使用tokenizedDocument

str = [“Guten Morgen。Wie Geht es dir?”“Heute Wird Ein Guter标签。”];文件= tokenizedDocument (str)
文档= 2x1令牌地区:8令牌:Guten Morgen。魏某geht ES目录 ?6个令牌:Heute Wird Ein Guter标签。

首先使用德语文本的言语细节的一部分addPartOfSpeechDetails

文档= addpartofspeechdetails(文件);

要查看语音细节的部分,请使用tokenDetails功能。

tdetails = tokenDetails(文件);头(Tdetails)
ans =.8×7表令牌DocumentNumber SentenceNumber LineNumber PartOfSpeech类型语言  ________ ______________ ______________ __________ ___________ ________ ____________ " 好“1 1 1字母de形容词“摩根”de名词1 1 1字母“”。1 1 1标点符号标点符号"Wie" 1 2 1个字母副词" get " 1 2 1个字母动词"es" 1 2 1个字母代词"dir" 1 2 1个字母代词"?"1 2 1标点再标点

输入参数

全部收缩

输入文档,指定为tokenizedDocument数组中。

名称值对参数

指定可选的逗号分离对名称,价值论点。的名字是参数名称和价值是对应的值。的名字必须出现在引号内。您可以以任何顺序指定多个名称和值对参数name1,value1,...,namen,valuen

例子:'DiscardKnownValues',真实指定丢弃先前计算的详细信息并重新计算它们。

解冻文档的方法,指定为以下内容之一:

  • '部分演讲'- 将令牌转换为词性标记。该函数执行这些任务:

    • 分离复合字。例如,拆分复合词“想”到令牌“想要””到“。这包括含有撇号的复合词。例如,函数拆分单词“别”到令牌“做”“不”

    • 合并不与前令牌结束句子的时期。例如,合并令牌“先生”“。”进入令牌“先生。”

    • 对于德语文本,合并跨越多个标记的缩写。例如,合并令牌“z”“。”“b”,“。”进入单个令牌“z。b .”

    • 合并到省略号中的延期运行。例如,合并三个实例“。”进入单个令牌“......”

  • '没有任何'- 不要退回文件。

句子检测的缩写列表,指定为字符串数组,字符向量,字符向量的字符向量或表格数组。

如果输入文档不包含句子细节,则函数首先运行AddsentEnCentails.函数并指定缩写列表给出'缩写'。要指定句子检测的更多选项(例如,句子启动)使用AddsentEnCentails.使用前功能addPartOfSpeechDetails细节。

如果缩写是字符串数组,字符向量或字符矢量的单元格数组,那么该函数将这些函数视为常规缩写。如果下一个单词是一个大写句子启动器,那么函数在尾随时间内打破。该函数忽略了缩写的字母案例中的任何差异。使用该句子启动器指定初学者名称值对。

在缩写缩写时拆分句子时指定不同的行为,请指定缩写作为一个表。表必须有命名的变量缩写使用, 在哪里缩写包含缩写,和使用包含每个缩写的类型。下表描述了可能的值使用,以及传递这些类型的缩写时函数的行为。

使用 行为 例子缩写 示例文本 检测到的句子
常规的 如果下一个单词是大写的句子开头词,则在末尾句号处中断。否则,不要在尾期突破。 “appt。” “预订一本。我们会见面。”

”一位appt书。"

“我们会见面。”

”一位appt书。今天。” ”一位appt书。今天。”
尾随期后不要打破。 “博士” “史密斯博士”。 “史密斯博士”。
参考 如果下一个令牌不是数字,则在尾随时期中断。如果下一个令牌是数字,则不会在尾随时段中断。 “图”。 “见图3.” “见图3.”
“尝试一个图。他们很好。”

“尝试图。”

“他们很好。”

单位 如果上一词是数字,并且以下单词是大写句子启动器,则在尾随时期中断。 “在。” “高度是30英寸。宽度是10英寸。”

“高度是30英寸。"

“宽度为10英寸”

如果上一词是数字,并且以下单词不大写,则不会在尾随时段中断。 “这个项目是10英寸。宽。” “这个项目是10英寸。宽。”
如果前一个单词不是数字,则在末尾句号处中断。 “进来。坐下来。”

“进来。”

“坐下。”

默认值是输出缩写功能。对于日语和韩文文本,缩写通常不会影响句子检测。

小费

默认情况下,该函数处理单字母缩写,如“v”,或标记与单字母和句号混合,如“U.S.A.”作为常规缩写。中不需要包含这些缩写缩写

数据类型:char|字符串|表格|细胞

选项以丢弃先前计算的详细信息并重新编译,指定为真正的错误的

数据类型:逻辑

输出参数

全部收缩

更新的文件,返回A.tokenizedDocument数组中。获取令牌详细信息更新,使用tokenDetails

更多关于

全部收缩

词性标记

addPartOfSpeechDetails函数为返回的表添加了语音份额标记tokenDetails功能。该函数用一个分类标记标记每个令牌,其中包含以下类别之一:

  • “形容词”- 形容词

  • “adposition”——Adposition

  • “副词”- 副词

  • “助动词”- 助动词

  • “coord-conjunction”——并列连接词

  • “限定词”- 确定者

  • “欹”- 互化

  • “名词”- 名词

  • “数字”——数字

  • “粒子”——粒子

  • “代词”- 代名词

  • “适当的名词”- 专有名词

  • “标点符号”(标点符号

  • “潜在结合”- 下属联想

  • “象征”- 象征

  • “动词”- 动词

  • “其他”- 其他

算法

如果输入文档不包含句子细节,则函数首先运行AddsentEnCentails.

在R2018B中介绍