帮助中心帮助中心
从文档中提取总结
自从R2020a
摘要= extractSummary(文档)
(总结,成绩)= extractSummary(文档)
(总结,成绩)= extractSummary(文档名称、值)
例子
总结= extractSummary (文档)选择输入文档的子集作为总结,并返回它们tokenizedDocument数组中。
总结= extractSummary (文档)
总结
文档
tokenizedDocument
(总结,分数)= extractSummary (文档)也回报的重要性得分用于选择概要文件。在这种情况下,分数(我)代表的分数总结(我)。
(总结,分数)= extractSummary (文档)
分数
分数(我)
总结(我)
(总结,分数)= extractSummary (文档,名称,值)使用一个或多个指定附加选项名称-值对参数。
(总结,分数)= extractSummary (文档,名称,值)
名称,值
全部折叠
创建一个数组的标记化的文档。
str = [“那只敏捷的棕色狐狸跳过了懒惰的狗。”“狐狸跳过的狗。”“懒惰的狗看见一只狐狸跳。”“似乎有动物跳其他动物。”“有敏捷的动物和懒惰的动物”];文件= tokenizedDocument (str);
使用提取的总结文档extractSummary函数。这个函数,默认情况下,选择输入文档的1/10,围捕。
extractSummary
总结= tokenizedDocument: 10令牌:那只敏捷的棕色狐狸跳过了懒惰的狗。
指定一个大总结,使用“SummarySize”选择。提取三种文档摘要。
“SummarySize”
摘要= extractSummary(文档,“SummarySize”3)
总结= 3 x1 tokenizedDocument: 10令牌:那只敏捷的棕色狐狸跳过了懒惰的狗。7代币:狐狸跳过了狗。9令牌:似乎有动物跳其他动物。
str = [“那只敏捷的棕色狐狸跳过了懒惰的狗。”“狐狸跳过的狗。”“懒惰的狗看见一只狐狸跳。”“似乎有动物跳过其他动物。”“有敏捷的动物和懒惰的动物”];文件= tokenizedDocument (str);
提取三种文档摘要。第二个输出分数包含摘要文档重要性分数。
(总结,成绩)= extractSummary(文档,“SummarySize”3)
总结= 3 x1 tokenizedDocument: 10令牌:那只敏捷的棕色狐狸跳过了懒惰的狗。10个标记:似乎有动物跳过其他动物。7代币:狐狸跳过了狗。
成绩=3×10.2426 0.2174 0.1911
想象一个条形图的分数。
图酒吧(分数)包含(“总结文件”)ylabel (“分数”)标题(“总结文档的重要性”)
总结一个文档,文档分割成数组的句子,并使用extractSummary函数。
创建一个字符串包含文档的标量。
str =…“有一个快速的狐狸。狐狸是棕色的。有一只狗,”+…”是懒惰。狗是非常懒。狐狸跳过了狗。”+…“那只敏捷的棕色狐狸跳过了懒惰的狗。”;
把字符串分割成句子使用splitSentences函数。
splitSentences
str = splitSentences (str)
str =6 x1字符串“这是一个快速狐狸。””The fox is brown." "There is a dog which is lazy." "The dog is very lazy." "The fox jumped over the dog." "The quick brown fox jumped over the lazy dog."
创建一个标记化的文档数组包含句子。
文件= tokenizedDocument (str)
文件= 6 x1 tokenizedDocument: 6令牌:有一个快速的狐狸。5令牌:狐狸是棕色的。8令牌:有一个懒惰的狗。6代币:狗是非常懒。7代币:狐狸跳过了狗。10令牌:那只敏捷的棕色狐狸跳过了懒惰的狗。
从句子中提取总结使用extractSummary函数。返回一个总结其中文档,设置“SummarySize”选项3。确保概要文件出现在同一订单作为输入文件,设置“OrderBy”选项“位置”。
“OrderBy”
“位置”
摘要= extractSummary(文档,“SummarySize”3,“OrderBy”,“位置”)
总结= 3 x1 tokenizedDocument: 6令牌:有一个快速的狐狸。7代币:狐狸跳过了狗。10令牌:那只敏捷的棕色狐狸跳过了懒惰的狗。
重建的句子成一个文件,将文件转换成字符串使用joinWords使用函数,加入到句子加入函数。
joinWords
加入
句子= joinWords(总结);summaryStr =加入(句子)
summaryStr = "有一个快速的狐狸。狐狸跳过了狗。那只敏捷的棕色狐狸跳过了懒惰的狗。”
清除周围的标点符号,使用取代函数。
取代
punctuationRight = [“。””、““”“)””:““?”“啊!”];summaryStr =取代(summaryStr,”“+ punctuationRight punctuationRight);punctuationLeft = [”(““”];summaryStr =取代(summaryStr punctuationLeft +”“punctuationLeft)
输入文件,指定为一个tokenizedDocument数组中。
指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。
Name1 = Value1,…,以=家
的名字
价值
R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。
例子:extractSummary(文档、“ScoringMethod”、“lexrank”)提取的总结文档并设置选项的得分方法“lexrank”。
extractSummary(文档、“ScoringMethod”、“lexrank”)
“lexrank”
ScoringMethod
“textrank”
“麻疹”
评分法用于采掘总结,指定为逗号分隔组成的“ScoringMethod”和下列之一:
“ScoringMethod”
“textrank”——使用TextRank算法。
“lexrank”——使用LexRank算法。
“麻疹”——使用MMR联合算法。
查询
查询文档MMR得分,指定为逗号分隔组成的“查询”和一个tokenizedDocument标量,字符串数组的话,或一个细胞的特征向量。如果“查询”不是一个tokenizedDocument标量,它必须是一个行向量代表一个文档,其中每个元素是一个词。
“查询”
这个选项只有当产生影响“ScoringMethod”是“麻疹”。
SummarySize
正
总结,大小指定为逗号分隔组成的“SummarySize”和下列之一:
标量范围(0,1)-提取指定的输入文档的比例,围捕。在这种情况下,概要文件的数量装天花板(SummarySize * numDocuments),在那里numDocuments输入文档的数量。
装天花板(SummarySize * numDocuments)
numDocuments
正整数——提取总结指定数量的文件。如果SummarySize大于或等于输入文档的数量,那么函数返回输入文档排序根据“OrderBy”选择。
正——返回输入文档排序根据“OrderBy”选择。
数据类型:双
双
OrderBy
“分数”
顺序文件的总之,指定为逗号分隔组成的“OrderBy”和下列之一:
“分数”——分数根据订单文档“ScoringMethod”选择。
“位置”——维护文档顺序的输入。
提取总结,作为一个返回tokenizedDocument数组中。总结的一个子集文档,并根据分类“OrderBy”选择。
总结文档得分,作为一个矢量,返回分数(我)的分数是j根据th总结文档“ScoringMethod”选择。分数排序根据“OrderBy”选择。
j
介绍了R2020a
tokenizedDocument|bleuEvaluationScore|rougeEvaluationScore|bm25Similarity|cosineSimilarity|textrankScores|lexrankScores|mmrScores|rakeKeywords|textrankKeywords
bleuEvaluationScore
rougeEvaluationScore
bm25Similarity
cosineSimilarity
textrankScores
lexrankScores
mmrScores
rakeKeywords
textrankKeywords
您有一张这本Beispiels geanderte版本。您这本Beispiel麻省理工学院古老Anderungen offnen吗?
您有窗户的链接geklickt,汪汪汪der diesem MATLAB-Befehl entspricht:
在das MATLAB-Befehlsfenster Fuhren您窝Befehl军队Eingabe来自。浏览器unterstutzen MATLAB-Befehle。
选择一个网站
选择一个网站翻译内容,看到当地事件和提供。根据你的位置,我们建议您选择:。
你也可以从下面的列表中选择一个网站:
选择中国网站(中文或英文)最佳站点的性能。其他MathWorks国家网站不优化的访问你的位置。
联系你当地的办公室