addSentenceDetails

在文档中添加句子编号

折叠所有页面

语法

updatedDocuments = addsenencedetails(文档)

updatedDocuments = addsenencedetails(文档，名称，值)

描述

使用addSentenceDetails向文档中添加句子信息。

支持英文、日文、德文、韩文万博1manbetx。

例子

updatedDocuments= addSentenceDetails (文档）检测句子的边界文档并更新令牌的详细信息。得到句子的细节updatedDocuments,使用tokenDetails．

updatedDocuments= addSentenceDetails (文档，名称,值）使用一个或多个名称-值对参数指定其他选项。

提示

使用addSentenceDetails在使用较低的，上，erasePunctuation，normalizeWords，removeWords,removeStopWords函数作为addSentenceDetails使用这些函数删除的信息。

例子

全部折叠

为文档添加句子细节

打开实时脚本

创建一个标记化文档数组。

STR = [.．.“这是一个示例文档。有两句话。”“这份文件只有一句话。”这是另一个文档示例。它还有两句话。”];documents = tokenizedDocument(str);

为文档添加句子细节addSentenceDetails．该函数将语句号添加到返回的表中tokenDetails．查看前几个令牌的更新令牌详细信息。

文档= addSentenceDetails(文档);tdetails = tokenDetails(文档);头(tdetails)

令牌DocumentNumber SentenceNumber LineNumber类型语言  __________ ______________ ______________ __________ ___________ ________ " 这种“1 1 1字母en”“1 1 1字母在”一个“1 1 1字母在“示例”1 1 1字母在“文档”“1 1 1信。”1 1 1个标点符号“It”1 2 1个字母“en”有“1 2 1个字母en”

查看第三个文档的第二句话的标记细节。

Idx = tdetails。DocumentNumber == 3 &.．.tdetails。SentenceNumber == 2;tdetails (idx:)

ans =6×6表令牌DocumentNumber SentenceNumber LineNumber类型语言  ___________ ______________ ______________ __________ ___________ ________ " “3 2 1字母en”也“3 2 1字母en”“3 2 1字母在“两个”3 2 1字母在“句子”3 2 1字母en”。”3 2 1标点符号

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文档，指定为tokenizedDocument数组中。

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名称-值参数必须出现在其他参数之后，但对的顺序无关紧要。

在R2021a之前，使用逗号分隔每个名称和值，并将其括起来的名字在报价。

例子:缩写词，["cm" "mm" "in"]指定检测这些缩写后面跟着句号和大写句子开头的句子边界。

`缩写`- - - - - -缩略语列表
字符串数组|特征向量|字符向量的单元格数组|表格

缩写列表，指定为字符串数组、字符向量、字符向量的单元格数组或表。

如果缩写是字符串数组、字符向量或字符向量的单元格数组，则函数将这些视为正则缩写。如果下一个单词是大写的句子开头，则函数在结尾句号处中断。该函数忽略缩写字母大小写中的任何差异。属性指定句子开始符开胃菜名称-值对。

要指定以缩写分隔句子时的不同行为，请指定缩写作为一张桌子。表必须有命名的变量缩写而且使用,在那里缩写包含缩写和使用包含每个缩写的类型。的可能取值如下表所示使用，以及传递这些类型的缩写时函数的行为。

使用	行为	例子缩写	示例文本	检测到的句子
`常规的`	如果下一个单词是一个大写的句子开头，那么在结尾句号处中断。否则，不要在尾随期中断。	“appt。”	`“预约。我们到时见。”`	`“预约。"` `“我们到时见。”`
`常规的`	如果下一个单词是一个大写的句子开头，那么在结尾句号处中断。否则，不要在尾随期中断。	“appt。”	`“预约。今天。”`	`“预约。今天。”`
`内心的`	不要在拖尾期后折断。	“博士”	`“史密斯博士”。`	`“史密斯博士”。`
`参考`	如果下一个令牌不是一个数字，则在尾随句号处中断。如果下一个令牌是一个数字，那么不要在尾随句号处中断。	“图”。	`“见图3。”`	`“见图3。”`
`参考`	如果下一个令牌不是一个数字，则在尾随句号处中断。如果下一个令牌是一个数字，那么不要在尾随句号处中断。	“图”。	`“试试无花果。它们很好吃。”`	`“试试无花果吧。”` `“他们很好。”`
`单位`	如果前面的单词是一个数字，下面的单词是一个大写的句子开头，那么在后面的句点处中断。	“在。”	`“高度是30英寸。宽度是10英寸。”`	`“高度是30英寸。"` `“宽度是10英寸。”`
	如果前一个单词是一个数字，而后面的单词不是大写的，那么不要在后面的句号处换行。		`“这个项目是10英寸。宽。”`	`“这个项目是10英寸。宽。”`
	如果前一个单词不是一个数字，则在尾随句号处中断。		`“进来。坐下来。”`	`“进来。"` `“坐下。”`

的输出缩写函数。对于日语和韩语文本，缩写通常不会影响句子检测。

提示

默认情况下，该函数将单字母缩写(如" v ")或混合单字母和句号的标记(如"U.S.A.")视为常规缩写。你不需要包括这些缩写缩写．

例子:["cm" "mm" "in"]

数据类型:字符|字符串|表格|细胞

`开胃菜`- - - - - -句子的开头词
字符串数组|特征向量|字符向量的单元格数组

句子开头的词，指定为字符串数组、字符向量或字符向量的单元格数组。如果句子开头出现在正则缩写之后，则该函数在结尾句点处检测句子边界。该函数忽略了句子开头字母大小写中的任何差异。

的输出stopWords函数。

数据类型:字符|字符串|细胞

`DiscardKnownValues`- - - - - -选项放弃以前计算的详细信息
`假`(默认)|`真正的`

选项，丢弃先前计算的详细信息并重新计算它们，指定为真正的或假．

数据类型:逻辑

输出参数

全部折叠

`updatedDocuments`-更新文件
`tokenizedDocument`数组

更新后的文档，返回为tokenizedDocument数组中。来获取令牌详细信息updatedDocuments,使用tokenDetails．

算法

如果表情符号或表情符号出现在结束标点符号之后，则该函数在表情符号和表情符号之后拆分句子。

版本历史

在R2018a中引入

另请参阅

addSentenceDetails

语法

描述

例子

为文档添加句子细节

输入参数

`文档`- - - - - -输入文档
`tokenizedDocument`数组

名称-值参数

`缩写`- - - - - -缩略语列表
字符串数组|特征向量|字符向量的单元格数组|表格

`开胃菜`- - - - - -句子的开头词
字符串数组|特征向量|字符向量的单元格数组

`DiscardKnownValues`- - - - - -选项放弃以前计算的详细信息
`假`(默认)|`真正的`

输出参数

`updatedDocuments`-更新文件
`tokenizedDocument`数组

更多关于

语言的注意事项

算法

版本历史

另请参阅

主题

addSentenceDetails

语法

描述

例子

为文档添加句子细节

输入参数

文档- - - - - -输入文档tokenizedDocument数组

名称-值参数

缩写- - - - - -缩略语列表字符串数组|特征向量|字符向量的单元格数组|表格

开胃菜- - - - - -句子的开头词字符串数组|特征向量|字符向量的单元格数组

DiscardKnownValues- - - - - -选项放弃以前计算的详细信息假(默认)|真正的

输出参数

updatedDocuments-更新文件tokenizedDocument数组

更多关于

语言的注意事项

算法

版本历史

另请参阅

主题

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`缩写`- - - - - -缩略语列表
字符串数组|特征向量|字符向量的单元格数组|表格

`开胃菜`- - - - - -句子的开头词
字符串数组|特征向量|字符向量的单元格数组

`DiscardKnownValues`- - - - - -选项放弃以前计算的详细信息
`假`(默认)|`真正的`

`updatedDocuments`-更新文件
`tokenizedDocument`数组