addSentenceDetails

在文档中添加句子编号

折叠所有页面

语法

updatedDocuments = addSentenceDetails(文档)

updatedDocuments = addSentenceDetails(文档名称、值)

描述

使用addSentenceDetails将句子信息添加到文档中。

该函数支持英语、日语、德语万博1manbetx和韩语文本。

例子

updatedDocuments= addSentenceDetails (文档）检测句子的边界文档并更新令牌细节。来获取句子的细节updatedDocuments,使用tokenDetails．

updatedDocuments= addSentenceDetails (文档，名称,值）使用一个或多个名称-值对参数指定其他选项。

提示

使用addSentenceDetails在使用之前较低的，上，erasePunctuation，normalizeWords，removeWords,removeStopWords函数作为addSentenceDetails使用被这些函数删除的信息。

例子

全部折叠

在文档中添加句子细节

打开生活的脚本

创建标记化的文档数组。

str = [．．.这是一个示例文档。它有两句话。”“这份文件只有一句话。”下面是另一个示例文档。它还有两句话。”];文件= tokenizedDocument (str);

在使用的文档中添加句子细节addSentenceDetails．该函数将句子编号添加到返回的表中tokenDetails．查看前几个令牌的更新令牌详细信息。

= addSentenceDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails)

ans =8×6表令牌DocumentNumber SentenceNumber LineNumber类型语言  __________ ______________ ______________ __________ ___________ ________ " 这种“1 1 1字母en”“1 1 1字母在”一个“1 1 1字母在“示例”1 1 1字母在“文档”“1 1 1信。”1 1 1标点符号“It”1 2 1字母“有”1 2 1字母“en”

查看第三个文档的第二句话的标记细节。

idx = tdetails。DocumentNumber == 3 &．．.tdetails。SentenceNumber = = 2;tdetails (idx:)

ans =6×6表令牌DocumentNumber SentenceNumber LineNumber类型语言  ___________ ______________ ______________ __________ ___________ ________ " “3 2 1字母en”也“3 2 1字母en”“3 2 1字母在“两个”3 2 1字母在“句子”3 2 1字母en”。”3 2 1标点符号

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文档，指定为tokenizedDocument数组中。

名称-值对的观点

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家．

例子:“缩写”,(“厘米”“毫米”“在”]指定检测句子边界，其中这些缩写后面跟着句号和大写的句子开头语。

`“缩写”`- - - - - -的缩写列表
字符串数组|特征向量|字符向量的单元格数组|表格

缩写列表，指定为字符串数组、字符向量、字符向量单元格数组或表。

如果缩写是字符串数组、字符向量或字符向量的单元格数组，则该函数将它们视为常规缩写。如果下一个单词是首字母大写的句子，则函数在末尾的句号处中断。该函数忽略缩写字母大小写的任何差异。指定句子的开头开胃菜名称-值对。

要指定在用缩写分隔句子时的不同行为，请指定缩写作为一个表。表必须有变量名缩写和使用,在那里缩写包含缩略语，和使用包含每个缩写的类型。的可能值如下表所示使用，以及传递这些类型的缩写时函数的行为。

使用	行为	例子缩写	示例文本	检测到的句子
`常规的`	如果下一个单词是首字母大写的句子，则在末尾的句号处停顿。否则，不要在末尾时中断。	“appt。”	`”一位appt书。我们会满足。”`	`”一位appt书。"` `“我们将满足。”`
`常规的`	如果下一个单词是首字母大写的句子，则在末尾的句号处停顿。否则，不要在末尾时中断。	“appt。”	`”一位appt书。今天。”`	`”一位appt书。今天。”`
`内心的`	不要在拖尾周期后中断。	“博士”	`“史密斯博士”。`	`“史密斯博士”。`
`参考`	如果下一个令牌不是一个数字，则在一个末尾时中断。如果下一个令牌是一个数字，则不要在末尾时中断。	“图”。	`见图3。`	`见图3。`
`参考`	如果下一个令牌不是一个数字，则在一个末尾时中断。如果下一个令牌是一个数字，则不要在末尾时中断。	“图”。	`“试试无花果吧，挺好吃的。”`	`“试试无花果。”` `“他们很好。”`
`单位`	如果前面的单词是一个数字，下面的单词是一个大写的句子开头词，那么在末尾停顿。	“在。”	`“高度是30英寸。宽度是10英寸。”`	`“高度是30英寸。"` `“宽度是10英寸。”`
	如果前面的单词是一个数字，而后面的单词不是大写的，那么不要在末尾停顿。		`“这个项目是10英寸。宽。”`	`“这个项目是10英寸。宽。”`
	如果前面的单词不是数字，则在末尾处中断。		`“进来。坐下来。”`	`“进来。"` `“坐下。”`

的输出缩写函数。对于日语和韩语文本，缩写通常不会影响句子检测。

提示

默认情况下，该函数将单字母缩写，如“v”，或包含单字母和句号的标记，如“U.S.A.”作为常规缩写。你不需要包含这些缩写缩写．

例子:(“厘米”“毫米”“在”]

数据类型:字符|字符串|表格|细胞

`“开始”`- - - - - -句子开头的单词
字符串数组|特征向量|字符向量的单元格数组

开始一个句子的单词，指定为字符串数组、字符向量或字符向量的单元格数组。如果句子开头字母大写地出现在常规缩写之后，则该函数在末尾的句点处检测到句子边界。该函数忽略了句子开头字母大小写的任何差异。

的输出stopWords函数。

数据类型:字符|字符串|细胞

`“DiscardKnownValues”`- - - - - -选择放弃先前计算的细节
`假`(默认)|`真正的`

选择放弃先前计算的细节并重新计算它们，指定为真正的或假．

数据类型:逻辑

输出参数

全部折叠

`updatedDocuments`——更新文档
`tokenizedDocument`数组

更新的文档，返回为tokenizedDocument数组中。获取令牌的详细信息updatedDocuments,使用tokenDetails．

算法

如果表情符号或表情符号出现在一个终止标点字符之后，则该功能将该表情符号和表情符号之后的句子分割。

另请参阅

主题

介绍了R2018a

addSentenceDetails

语法

描述

例子

在文档中添加句子细节

输入参数

`文档`- - - - - -输入文档
`tokenizedDocument`数组

名称-值对的观点

`“缩写”`- - - - - -的缩写列表
字符串数组|特征向量|字符向量的单元格数组|表格

`“开始”`- - - - - -句子开头的单词
字符串数组|特征向量|字符向量的单元格数组

`“DiscardKnownValues”`- - - - - -选择放弃先前计算的细节
`假`(默认)|`真正的`

输出参数

`updatedDocuments`——更新文档
`tokenizedDocument`数组

更多关于

语言的注意事项

算法

另请参阅

主题

文本分析工具箱文档

万博1manbetx

入门文本分析在MATLAB

addSentenceDetails

语法

描述

例子

在文档中添加句子细节

输入参数

文档- - - - - -输入文档tokenizedDocument数组

名称-值对的观点

“缩写”- - - - - -的缩写列表字符串数组|特征向量|字符向量的单元格数组|表格

“开始”- - - - - -句子开头的单词字符串数组|特征向量|字符向量的单元格数组

“DiscardKnownValues”- - - - - -选择放弃先前计算的细节假(默认)|真正的

输出参数

updatedDocuments——更新文档tokenizedDocument数组

更多关于

语言的注意事项

算法

另请参阅

主题

文本分析工具箱文档

万博1manbetx

入门文本分析在MATLAB

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`“缩写”`- - - - - -的缩写列表
字符串数组|特征向量|字符向量的单元格数组|表格

`“开始”`- - - - - -句子开头的单词
字符串数组|特征向量|字符向量的单元格数组

`“DiscardKnownValues”`- - - - - -选择放弃先前计算的细节
`假`(默认)|`真正的`

`updatedDocuments`——更新文档
`tokenizedDocument`数组