主要内容

addSentenceDetails

在文档中添加句子编号

描述

使用addSentenceDetails将句子信息添加到文档中。

该函数支持英语、日语、德语万博1manbetx和韩语文本。

例子

updatedDocuments= addSentenceDetails (文档检测句子的边界文档并更新令牌细节。来获取句子的细节updatedDocuments,使用tokenDetails

updatedDocuments= addSentenceDetails (文档名称,值使用一个或多个名称-值对参数指定其他选项。

提示

使用addSentenceDetails在使用之前较低的erasePunctuationnormalizeWordsremoveWords,removeStopWords函数作为addSentenceDetails使用被这些函数删除的信息。

例子

全部折叠

创建标记化的文档数组。

str = [...这是一个示例文档。它有两句话。”“这份文件只有一句话。”下面是另一个示例文档。它还有两句话。”];文件= tokenizedDocument (str);

在使用的文档中添加句子细节addSentenceDetails.该函数将句子编号添加到返回的表中tokenDetails.查看前几个令牌的更新令牌详细信息。

= addSentenceDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails)
ans =8×6表令牌DocumentNumber SentenceNumber LineNumber类型语言  __________ ______________ ______________ __________ ___________ ________ " 这种“1 1 1字母en”“1 1 1字母在”一个“1 1 1字母在“示例”1 1 1字母在“文档”“1 1 1信。”1 1 1标点符号“It”1 2 1字母“有”1 2 1字母“en”

查看第三个文档的第二句话的标记细节。

idx = tdetails。DocumentNumber == 3 &...tdetails。SentenceNumber = = 2;tdetails (idx:)
ans =6×6表令牌DocumentNumber SentenceNumber LineNumber类型语言  ___________ ______________ ______________ __________ ___________ ________ " “3 2 1字母en”也“3 2 1字母en”“3 2 1字母在“两个”3 2 1字母在“句子”3 2 1字母en”。”3 2 1标点符号

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组中。

名称-值对的观点

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:“缩写”,(“厘米”“毫米”“在”]指定检测句子边界,其中这些缩写后面跟着句号和大写的句子开头语。

缩写列表,指定为字符串数组、字符向量、字符向量单元格数组或表。

如果缩写是字符串数组、字符向量或字符向量的单元格数组,则该函数将它们视为常规缩写。如果下一个单词是首字母大写的句子,则函数在末尾的句号处中断。该函数忽略缩写字母大小写的任何差异。指定句子的开头开胃菜名称-值对。

要指定在用缩写分隔句子时的不同行为,请指定缩写作为一个表。表必须有变量名缩写使用,在那里缩写包含缩略语,和使用包含每个缩写的类型。的可能值如下表所示使用,以及传递这些类型的缩写时函数的行为。

使用 行为 例子缩写 示例文本 检测到的句子
常规的 如果下一个单词是首字母大写的句子,则在末尾的句号处停顿。否则,不要在末尾时中断。 “appt。” ”一位appt书。我们会满足。”

”一位appt书。"

“我们将满足。”

”一位appt书。今天。” ”一位appt书。今天。”
内心的 不要在拖尾周期后中断。 “博士” “史密斯博士”。 “史密斯博士”。
参考 如果下一个令牌不是一个数字,则在一个末尾时中断。如果下一个令牌是一个数字,则不要在末尾时中断。 “图”。 见图3。 见图3。
“试试无花果吧,挺好吃的。”

“试试无花果。”

“他们很好。”

单位 如果前面的单词是一个数字,下面的单词是一个大写的句子开头词,那么在末尾停顿。 “在。” “高度是30英寸。宽度是10英寸。”

“高度是30英寸。"

“宽度是10英寸。”

如果前面的单词是一个数字,而后面的单词不是大写的,那么不要在末尾停顿。 “这个项目是10英寸。宽。” “这个项目是10英寸。宽。”
如果前面的单词不是数字,则在末尾处中断。 “进来。坐下来。”

“进来。"

“坐下。”

的输出缩写函数。对于日语和韩语文本,缩写通常不会影响句子检测。

提示

默认情况下,该函数将单字母缩写,如“v”,或包含单字母和句号的标记,如“U.S.A.”作为常规缩写。你不需要包含这些缩写缩写

例子:(“厘米”“毫米”“在”]

数据类型:字符|字符串|表格|细胞

开始一个句子的单词,指定为字符串数组、字符向量或字符向量的单元格数组。如果句子开头字母大写地出现在常规缩写之后,则该函数在末尾的句点处检测到句子边界。该函数忽略了句子开头字母大小写的任何差异。

的输出stopWords函数。

数据类型:字符|字符串|细胞

选择放弃先前计算的细节并重新计算它们,指定为真正的

数据类型:逻辑

输出参数

全部折叠

更新的文档,返回为tokenizedDocument数组中。获取令牌的详细信息updatedDocuments,使用tokenDetails

更多关于

全部折叠

语言的注意事项

addSentenceDetails函数根据标点符号和行号信息检测句子边界。对于英语和德语文本,函数还使用传递给函数的缩写列表。

对于其他语言,您可能需要指定自己的缩写列表以进行句子检测。要做到这一点,使用“缩写”选择addSentenceDetails

算法

如果表情符号或表情符号出现在一个终止标点字符之后,则该功能将该表情符号和表情符号之后的句子分割。

介绍了R2018a