extractSummary

从文档中提取总结

自从R2020a

所有的页面崩溃

语法

摘要= extractSummary(文档)

(总结,成绩)= extractSummary(文档)

(总结,成绩)= extractSummary(文档名称、值)

描述

例子

总结= extractSummary (文档)选择输入文档的子集作为总结,并返回它们tokenizedDocument数组中。

例子

(总结,分数)= extractSummary (文档)也回报的重要性得分用于选择概要文件。在这种情况下,分数(我)代表的分数总结(我)。

例子

(总结,分数)= extractSummary (文档,名称,值)使用一个或多个指定附加选项名称-值对参数。

例子

全部折叠

总结文件

打开生活的脚本

创建一个数组的标记化的文档。

str = [“那只敏捷的棕色狐狸跳过了懒惰的狗。”“狐狸跳过的狗。”“懒惰的狗看见一只狐狸跳。”“似乎有动物跳其他动物。”“有敏捷的动物和懒惰的动物”];文件= tokenizedDocument (str);

使用提取的总结文档extractSummary函数。这个函数,默认情况下,选择输入文档的1/10,围捕。

摘要= extractSummary(文档)

总结= tokenizedDocument: 10令牌:那只敏捷的棕色狐狸跳过了懒惰的狗。

指定一个大总结,使用“SummarySize”选择。提取三种文档摘要。

摘要= extractSummary(文档,“SummarySize”3)

总结= 3 x1 tokenizedDocument: 10令牌:那只敏捷的棕色狐狸跳过了懒惰的狗。7代币:狐狸跳过了狗。9令牌:似乎有动物跳其他动物。

评估文件的重要性

打开生活的脚本

创建一个数组的标记化的文档。

str = [“那只敏捷的棕色狐狸跳过了懒惰的狗。”“狐狸跳过的狗。”“懒惰的狗看见一只狐狸跳。”“似乎有动物跳过其他动物。”“有敏捷的动物和懒惰的动物”];文件= tokenizedDocument (str);

提取三种文档摘要。第二个输出分数包含摘要文档重要性分数。

(总结,成绩)= extractSummary(文档,“SummarySize”3)

总结= 3 x1 tokenizedDocument: 10令牌:那只敏捷的棕色狐狸跳过了懒惰的狗。10个标记:似乎有动物跳过其他动物。7代币:狐狸跳过了狗。

成绩=3×10.2426 0.2174 0.1911

想象一个条形图的分数。

图酒吧(分数)包含(“总结文件”)ylabel (“分数”)标题(“总结文档的重要性”)

图包含一个坐标轴对象。坐标轴对象与标题总结文档的重要性,包含总结文档,ylabel得分包含一个对象类型的酒吧。”width=

句子层面上总结

打开生活的脚本

总结一个文档,文档分割成数组的句子,并使用extractSummary函数。

创建一个字符串包含文档的标量。

str =…“有一个快速的狐狸。狐狸是棕色的。有一只狗,”+…”是懒惰。狗是非常懒。狐狸跳过了狗。”+…“那只敏捷的棕色狐狸跳过了懒惰的狗。”;

把字符串分割成句子使用splitSentences函数。

str = splitSentences (str)

str =6 x1字符串“这是一个快速狐狸。””The fox is brown." "There is a dog which is lazy." "The dog is very lazy." "The fox jumped over the dog." "The quick brown fox jumped over the lazy dog."

创建一个标记化的文档数组包含句子。

文件= tokenizedDocument (str)

文件= 6 x1 tokenizedDocument: 6令牌:有一个快速的狐狸。5令牌:狐狸是棕色的。8令牌:有一个懒惰的狗。6代币:狗是非常懒。7代币:狐狸跳过了狗。10令牌:那只敏捷的棕色狐狸跳过了懒惰的狗。

从句子中提取总结使用extractSummary函数。返回一个总结其中文档,设置“SummarySize”选项3。确保概要文件出现在同一订单作为输入文件,设置“OrderBy”选项“位置”。

摘要= extractSummary(文档,“SummarySize”3,“OrderBy”,“位置”)

总结= 3 x1 tokenizedDocument: 6令牌:有一个快速的狐狸。7代币:狐狸跳过了狗。10令牌:那只敏捷的棕色狐狸跳过了懒惰的狗。

重建的句子成一个文件,将文件转换成字符串使用joinWords使用函数,加入到句子加入函数。

句子= joinWords(总结);summaryStr =加入(句子)

summaryStr = "有一个快速的狐狸。狐狸跳过了狗。那只敏捷的棕色狐狸跳过了懒惰的狗。”

清除周围的标点符号,使用取代函数。

punctuationRight = [“。””、““”“)””:““?”“啊!”];summaryStr =取代(summaryStr,”“+ punctuationRight punctuationRight);punctuationLeft = [”(““”];summaryStr =取代(summaryStr punctuationLeft +”“punctuationLeft)

summaryStr = "有一个快速的狐狸。狐狸跳过了狗。那只敏捷的棕色狐狸跳过了懒惰的狗。”

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文件,指定为一个tokenizedDocument数组中。

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:extractSummary(文档、“ScoringMethod”、“lexrank”)提取的总结文档并设置选项的得分方法“lexrank”。

`ScoringMethod`- - - - - -评分法
`“textrank”`(默认)|`“lexrank”`|`“麻疹”`

评分法用于采掘总结,指定为逗号分隔组成的“ScoringMethod”和下列之一:

“textrank”——使用TextRank算法。
“lexrank”——使用LexRank算法。
“麻疹”——使用MMR联合算法。

`查询`- - - - - -查询文档MMR得分
`tokenizedDocument`标量|字符串数组|单元阵列的特征向量

查询文档MMR得分,指定为逗号分隔组成的“查询”和一个tokenizedDocument标量,字符串数组的话,或一个细胞的特征向量。如果“查询”不是一个tokenizedDocument标量,它必须是一个行向量代表一个文档,其中每个元素是一个词。

这个选项只有当产生影响“ScoringMethod”是“麻疹”。

`SummarySize`- - - - - -大小的总结
0.1(默认)|标量的范围(0,1)|正整数|`正`

总结,大小指定为逗号分隔组成的“SummarySize”和下列之一:

标量范围(0,1)-提取指定的输入文档的比例,围捕。在这种情况下,概要文件的数量装天花板(SummarySize * numDocuments),在那里numDocuments输入文档的数量。
正整数——提取总结指定数量的文件。如果SummarySize大于或等于输入文档的数量,那么函数返回输入文档排序根据“OrderBy”选择。
正——返回输入文档排序根据“OrderBy”选择。

数据类型:双

`OrderBy`- - - - - -顺序文件的摘要
`“分数”`(默认)|`“位置”`

顺序文件的总之,指定为逗号分隔组成的“OrderBy”和下列之一:

“分数”——分数根据订单文档“ScoringMethod”选择。
“位置”——维护文档顺序的输入。

输出参数

全部折叠

`总结`——提取总结
`tokenizedDocument`数组

提取总结,作为一个返回tokenizedDocument数组中。总结的一个子集文档,并根据分类“OrderBy”选择。

`分数`——总结文档得分
向量

总结文档得分,作为一个矢量,返回分数(我)的分数是j根据th总结文档“ScoringMethod”选择。分数排序根据“OrderBy”选择。

版本历史

介绍了R2020a

另请参阅

extractSummary

语法

描述

例子

总结文件

评估文件的重要性

句子层面上总结

输入参数

文档- - - - - -输入文档tokenizedDocument数组

名称-值参数

ScoringMethod- - - - - -评分法“textrank”(默认)|“lexrank”|“麻疹”

查询- - - - - -查询文档MMR得分tokenizedDocument标量|字符串数组|单元阵列的特征向量

SummarySize- - - - - -大小的总结0.1(默认)|标量的范围(0,1)|正整数|正

OrderBy- - - - - -顺序文件的摘要“分数”(默认)|“位置”

输出参数

总结——提取总结tokenizedDocument数组

分数——总结文档得分向量

版本历史

另请参阅

主题

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`ScoringMethod`- - - - - -评分法
`“textrank”`(默认)|`“lexrank”`|`“麻疹”`

`查询`- - - - - -查询文档MMR得分
`tokenizedDocument`标量|字符串数组|单元阵列的特征向量

`SummarySize`- - - - - -大小的总结
0.1(默认)|标量的范围(0,1)|正整数|`正`

`OrderBy`- - - - - -顺序文件的摘要
`“分数”`(默认)|`“位置”`

`总结`——提取总结
`tokenizedDocument`数组

`分数`——总结文档得分
向量