主要内容

extractSummary

从文档中提取总结

自从R2020a

描述

例子

总结= extractSummary (文档)选择输入文档的子集作为总结,并返回它们tokenizedDocument数组中。

例子

(总结,分数)= extractSummary (文档)也回报的重要性得分用于选择概要文件。在这种情况下,分数(我)代表的分数总结(我)

例子

(总结,分数)= extractSummary (文档,名称,值)使用一个或多个指定附加选项名称-值对参数。

例子

全部折叠

创建一个数组的标记化的文档。

str = [“那只敏捷的棕色狐狸跳过了懒惰的狗。”“狐狸跳过的狗。”“懒惰的狗看见一只狐狸跳。”“似乎有动物跳其他动物。”“有敏捷的动物和懒惰的动物”];文件= tokenizedDocument (str);

使用提取的总结文档extractSummary函数。这个函数,默认情况下,选择输入文档的1/10,围捕。

摘要= extractSummary(文档)
总结= tokenizedDocument: 10令牌:那只敏捷的棕色狐狸跳过了懒惰的狗。

指定一个大总结,使用“SummarySize”选择。提取三种文档摘要。

摘要= extractSummary(文档,“SummarySize”3)
总结= 3 x1 tokenizedDocument: 10令牌:那只敏捷的棕色狐狸跳过了懒惰的狗。7代币:狐狸跳过了狗。9令牌:似乎有动物跳其他动物。

创建一个数组的标记化的文档。

str = [“那只敏捷的棕色狐狸跳过了懒惰的狗。”“狐狸跳过的狗。”“懒惰的狗看见一只狐狸跳。”“似乎有动物跳过其他动物。”“有敏捷的动物和懒惰的动物”];文件= tokenizedDocument (str);

提取三种文档摘要。第二个输出分数包含摘要文档重要性分数。

(总结,成绩)= extractSummary(文档,“SummarySize”3)
总结= 3 x1 tokenizedDocument: 10令牌:那只敏捷的棕色狐狸跳过了懒惰的狗。10个标记:似乎有动物跳过其他动物。7代币:狐狸跳过了狗。
成绩=3×10.2426 0.2174 0.1911

想象一个条形图的分数。

图酒吧(分数)包含(“总结文件”)ylabel (“分数”)标题(“总结文档的重要性”)

图包含一个坐标轴对象。坐标轴对象与标题总结文档的重要性,包含总结文档,ylabel得分包含一个对象类型的酒吧。”width=

总结一个文档,文档分割成数组的句子,并使用extractSummary函数。

创建一个字符串包含文档的标量。

str =“有一个快速的狐狸。狐狸是棕色的。有一只狗,”+”是懒惰。狗是非常懒。狐狸跳过了狗。”+“那只敏捷的棕色狐狸跳过了懒惰的狗。”;

把字符串分割成句子使用splitSentences函数。

str = splitSentences (str)
str =6 x1字符串“这是一个快速狐狸。””The fox is brown." "There is a dog which is lazy." "The dog is very lazy." "The fox jumped over the dog." "The quick brown fox jumped over the lazy dog."

创建一个标记化的文档数组包含句子。

文件= tokenizedDocument (str)
文件= 6 x1 tokenizedDocument: 6令牌:有一个快速的狐狸。5令牌:狐狸是棕色的。8令牌:有一个懒惰的狗。6代币:狗是非常懒。7代币:狐狸跳过了狗。10令牌:那只敏捷的棕色狐狸跳过了懒惰的狗。

从句子中提取总结使用extractSummary函数。返回一个总结其中文档,设置“SummarySize”选项3。确保概要文件出现在同一订单作为输入文件,设置“OrderBy”选项“位置”

摘要= extractSummary(文档,“SummarySize”3,“OrderBy”,“位置”)
总结= 3 x1 tokenizedDocument: 6令牌:有一个快速的狐狸。7代币:狐狸跳过了狗。10令牌:那只敏捷的棕色狐狸跳过了懒惰的狗。

重建的句子成一个文件,将文件转换成字符串使用joinWords使用函数,加入到句子加入函数。

句子= joinWords(总结);summaryStr =加入(句子)
summaryStr = "有一个快速的狐狸。狐狸跳过了狗。那只敏捷的棕色狐狸跳过了懒惰的狗。”

清除周围的标点符号,使用取代函数。

punctuationRight = [“。””、““”“)””:““?”“啊!”];summaryStr =取代(summaryStr,”“+ punctuationRight punctuationRight);punctuationLeft = [”(““”];summaryStr =取代(summaryStr punctuationLeft +”“punctuationLeft)
summaryStr = "有一个快速的狐狸。狐狸跳过了狗。那只敏捷的棕色狐狸跳过了懒惰的狗。”

输入参数

全部折叠

输入文件,指定为一个tokenizedDocument数组中。

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:extractSummary(文档、“ScoringMethod”、“lexrank”)提取的总结文档并设置选项的得分方法“lexrank”

评分法用于采掘总结,指定为逗号分隔组成的“ScoringMethod”和下列之一:

  • “textrank”——使用TextRank算法。

  • “lexrank”——使用LexRank算法。

  • “麻疹”——使用MMR联合算法。

查询文档MMR得分,指定为逗号分隔组成的“查询”和一个tokenizedDocument标量,字符串数组的话,或一个细胞的特征向量。如果“查询”不是一个tokenizedDocument标量,它必须是一个行向量代表一个文档,其中每个元素是一个词。

这个选项只有当产生影响“ScoringMethod”“麻疹”

总结,大小指定为逗号分隔组成的“SummarySize”和下列之一:

  • 标量范围(0,1)-提取指定的输入文档的比例,围捕。在这种情况下,概要文件的数量装天花板(SummarySize * numDocuments),在那里numDocuments输入文档的数量。

  • 正整数——提取总结指定数量的文件。如果SummarySize大于或等于输入文档的数量,那么函数返回输入文档排序根据“OrderBy”选择。

    ——返回输入文档排序根据“OrderBy”选择。

数据类型:

顺序文件的总之,指定为逗号分隔组成的“OrderBy”和下列之一:

  • “分数”——分数根据订单文档“ScoringMethod”选择。

  • “位置”——维护文档顺序的输入。

输出参数

全部折叠

提取总结,作为一个返回tokenizedDocument数组中。总结的一个子集文档,并根据分类“OrderBy”选择。

总结文档得分,作为一个矢量,返回分数(我)的分数是j根据th总结文档“ScoringMethod”选择。分数排序根据“OrderBy”选择。

版本历史

介绍了R2020a