主要内容

addSentenceDetails

在文档中添加句子编号

描述

使用addSentenceDetails向文档中添加句子信息。

支持英文、日文、德文、韩文万博1manbetx。

例子

updatedDocuments= addSentenceDetails (文档检测句子的边界文档并更新令牌的详细信息。得到句子的细节updatedDocuments,使用tokenDetails

updatedDocuments= addSentenceDetails (文档名称,值使用一个或多个名称-值对参数指定其他选项。

提示

使用addSentenceDetails在使用较低的erasePunctuationnormalizeWordsremoveWords,removeStopWords函数作为addSentenceDetails使用这些函数删除的信息。

例子

全部折叠

创建一个标记化文档数组。

STR = [...“这是一个示例文档。有两句话。”“这份文件只有一句话。”这是另一个文档示例。它还有两句话。”];documents = tokenizedDocument(str);

为文档添加句子细节addSentenceDetails.该函数将语句号添加到返回的表中tokenDetails.查看前几个令牌的更新令牌详细信息。

文档= addSentenceDetails(文档);tdetails = tokenDetails(文档);头(tdetails)
令牌DocumentNumber SentenceNumber LineNumber类型语言  __________ ______________ ______________ __________ ___________ ________ " 这种“1 1 1字母en”“1 1 1字母在”一个“1 1 1字母在“示例”1 1 1字母在“文档”“1 1 1信。”1 1 1个标点符号“It”1 2 1个字母“en”有“1 2 1个字母en”

查看第三个文档的第二句话的标记细节。

Idx = tdetails。DocumentNumber == 3 &...tdetails。SentenceNumber == 2;tdetails (idx:)
ans =6×6表令牌DocumentNumber SentenceNumber LineNumber类型语言  ___________ ______________ ______________ __________ ___________ ________ " “3 2 1字母en”也“3 2 1字母en”“3 2 1字母在“两个”3 2 1字母在“句子”3 2 1字母en”。”3 2 1标点符号

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组中。

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名称-值参数必须出现在其他参数之后,但对的顺序无关紧要。

在R2021a之前,使用逗号分隔每个名称和值,并将其括起来的名字在报价。

例子:缩写词,["cm" "mm" "in"]指定检测这些缩写后面跟着句号和大写句子开头的句子边界。

缩写列表,指定为字符串数组、字符向量、字符向量的单元格数组或表。

如果缩写是字符串数组、字符向量或字符向量的单元格数组,则函数将这些视为正则缩写。如果下一个单词是大写的句子开头,则函数在结尾句号处中断。该函数忽略缩写字母大小写中的任何差异。属性指定句子开始符开胃菜名称-值对。

要指定以缩写分隔句子时的不同行为,请指定缩写作为一张桌子。表必须有命名的变量缩写而且使用,在那里缩写包含缩写和使用包含每个缩写的类型。的可能取值如下表所示使用,以及传递这些类型的缩写时函数的行为。

使用 行为 例子缩写 示例文本 检测到的句子
常规的 如果下一个单词是一个大写的句子开头,那么在结尾句号处中断。否则,不要在尾随期中断。 “appt。” “预约。我们到时见。”

“预约。"

“我们到时见。”

“预约。今天。” “预约。今天。”
内心的 不要在拖尾期后折断。 “博士” “史密斯博士”。 “史密斯博士”。
参考 如果下一个令牌不是一个数字,则在尾随句号处中断。如果下一个令牌是一个数字,那么不要在尾随句号处中断。 “图”。 “见图3。” “见图3。”
“试试无花果。它们很好吃。”

“试试无花果吧。”

“他们很好。”

单位 如果前面的单词是一个数字,下面的单词是一个大写的句子开头,那么在后面的句点处中断。 “在。” “高度是30英寸。宽度是10英寸。”

“高度是30英寸。"

“宽度是10英寸。”

如果前一个单词是一个数字,而后面的单词不是大写的,那么不要在后面的句号处换行。 “这个项目是10英寸。宽。” “这个项目是10英寸。宽。”
如果前一个单词不是一个数字,则在尾随句号处中断。 “进来。坐下来。”

“进来。"

“坐下。”

的输出缩写函数。对于日语和韩语文本,缩写通常不会影响句子检测。

提示

默认情况下,该函数将单字母缩写(如" v ")或混合单字母和句号的标记(如"U.S.A.")视为常规缩写。你不需要包括这些缩写缩写

例子:["cm" "mm" "in"]

数据类型:字符|字符串|表格|细胞

句子开头的词,指定为字符串数组、字符向量或字符向量的单元格数组。如果句子开头出现在正则缩写之后,则该函数在结尾句点处检测句子边界。该函数忽略了句子开头字母大小写中的任何差异。

的输出stopWords函数。

数据类型:字符|字符串|细胞

选项,丢弃先前计算的详细信息并重新计算它们,指定为真正的

数据类型:逻辑

输出参数

全部折叠

更新后的文档,返回为tokenizedDocument数组中。来获取令牌详细信息updatedDocuments,使用tokenDetails

更多关于

全部折叠

语言的注意事项

addSentenceDetails函数根据标点符号和行号信息检测句子边界。对于英语和德语文本,该函数还使用传递给该函数的缩写列表。

对于其他语言,您可能需要指定自己的缩略语列表用于句子检测。要做到这一点,请使用“缩写”选择addSentenceDetails

算法

如果表情符号或表情符号出现在结束标点符号之后,则该函数在表情符号和表情符号之后拆分句子。

版本历史

在R2018a中引入