textrankScores

文档评分与TextRank算法

自从R2020a

折叠所有页面

语法

分数= textrankScores(文档)

分数= textrankScores(包)

描述

例子

分数= textrankScores (文档）分数文档根据使用TextRank算法的成对相似度值为重要性。为了计算相似性和重要性分数，该函数分别使用BM25和PageRank算法。

例子

分数= textrankScores (袋）对用单词袋或n-grams袋模型编码的文档进行评分袋．

例子

全部折叠

文件的重要性

打开实时脚本

创建一个标记化文档数组。

STR = [敏捷的棕色狐狸跳过了懒惰的狗。“敏捷的棕色狐狸跳过了懒惰的狗。”懒狗坐在那里什么也不做“其他动物坐在那里看着”];documents = tokenizedDocument(str)

9个token:敏捷的棕色狐狸跳过了懒惰的狗9个token:敏捷的棕色狐狸跳过了懒惰的狗8个token:懒惰的狗坐在那里什么也没做6个token:其他动物坐在那里看着

计算TextRank分数。

分数= textrankScores(文档);

在柱状图中可视化分数。

图表栏(scores)“文档”) ylabel (“分数”)标题(“TextRank分数”）

图中包含一个轴对象。标题为TextRank Scores, xlabel Document, ylabel Score的axes对象包含一个类型为bar的对象。

使用词汇袋模型的分数

打开实时脚本

中的文本数据创建单词袋模型sonnets.csv．

文件名=“sonnets.csv”；TBL =可读(文件名，“TextType”，“字符串”）;textData = tbl.十四行诗;documents = tokenizedDocument(textData);bag = bagOfWords(文档)

词汇:["来自" "最美丽的" "生物" "我们" "渴望" "增加" "那" "因此" "美" "玫瑰" "可能" "永远" "死亡" "但是" "作为" " "成熟" "应该" "由" "时间"…NumWords: 3527 NumDocuments: 154

计算TextRank分数。

分数= textrankScores(包);

在柱状图中可视化分数。

图表栏(scores)“文档”) ylabel (“分数”)标题(“TextRank分数”）

图中包含一个轴对象。标题为TextRank Scores, xlabel Document, ylabel Score的axes对象包含一个类型为bar的对象。

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组|字串数组|字符向量的单元格数组

输入文档，指定为tokenizedDocument数组、单词的字符串数组或字符向量的单元格数组。如果文档不是tokenizedDocument数组，则它必须是表示单个文档的行向量，其中每个元素都是一个单词。若要指定多个文档，请使用tokenizedDocument数组中。

`袋`- - - - - -输入模型
`bagOfWords`对象|`bagOfNgrams`对象

输入单词袋或n-grams袋模型，指定为bagOfWords对象或bagOfNgrams对象。如果袋是一个bagOfNgrams对象，则该函数将每个n-gram视为单个单词。

输出参数

全部折叠

`分数`- TextRank得分
向量

TextRank分数，返回为N-by-1向量，其中分数(我)对应的分数我Th输入文档和N是输入文档的数量。

参考文献

Mihalcea, Rada和Paul Tarau。“Textrank:为文本带来秩序。”在2004年自然语言处理经验方法会议论文集，第404-411页。2004.

版本历史

R2020a中引入

另请参阅

主题

使用注意力的序列到序列转换

textrankScores

语法

描述

例子

文件的重要性

使用词汇袋模型的分数

输入参数

文档- - - - - -输入文档tokenizedDocument数组|字串数组|字符向量的单元格数组

袋- - - - - -输入模型bagOfWords对象|bagOfNgrams对象

输出参数

分数- TextRank得分向量

参考文献

版本历史

另请参阅

主题

`文档`- - - - - -输入文档
`tokenizedDocument`数组|字串数组|字符向量的单元格数组

`袋`- - - - - -输入模型
`bagOfWords`对象|`bagOfNgrams`对象

`分数`- TextRank得分
向量