主要内容

textrankKeywords

使用TextRank提取关键字

    描述

    例子

    资源描述= textrankKeywords (文档使用TextRank提取关键词和各自的分数。该函数支持英语、日语、德语万博1manbetx和韩语文本。对于其他语言,请尝试使用rakeKeywords函数来代替。

    例子

    资源描述= textrankKeywords (文档名称,值使用一个或多个名称-值对参数指定其他选项。

    例子

    全部折叠

    创建包含文本数据的标记化文档数组。

    textData = [“MATLAB为工程师提供了非常有用的工具。科学家们在MATLAB中使用了许多有用的工具。”MATLAB和Simul万博1manbetxink有很多特性。使用MATLAB和Simuli万博1manbetxnk进行工程工作流程。在MATLAB中分析文本和图像。在MATLAB中分析文本、图像和视频。];文件= tokenizedDocument (textData);

    提取关键字使用textrankKeywords函数。

    台= textrankKeywords(文档)
    台=7×3表关键字DocumentNumber得分  _________________________________ ______________ ______ " 许多“有用的”“工具”1 5.2174“有用的”“工具”“1 3.8778“许多”“功能”““2 4.0815”文本”“”“”3 1”图片”“”“”3 1”MATLAB”“”“”“”“”“3 1”视频3 1

    如果关键字包含多个单词,则字符串数组的第Th元素对应于关键字的字。如果关键字的单词比最长关键字的单词少,则字符串数组的其余条目为空字符串""

    属性将多字关键字转换为单个字符串,以提高可读性加入功能。

    如果> 1 tbl. size(tbl. keyword,2);关键字= strip(join(tbl.Keyword));结束资源描述
    台=7×3表关键字DocumentNumber评分___________________ ______________ ______“许多有用的工具”1 5.2174“有用的工具”1 3.8778“许多功能”2 4.0815“文本”3 1“图像”3 1“MATLAB”3 1“视频”3 1

    创建包含文本数据的标记化文档数组。

    textData = [“MATLAB为工程师提供了非常有用的工具。科学家们使用许多有用的MATLAB工具箱。”MATLAB和Simul万博1manbetxink有很多特性。使用MATLAB和Simuli万博1manbetxnk进行工程工作流程。在MATLAB中分析文本和图像。在MATLAB中分析文本、图像和视频。];文件= tokenizedDocument (textData);

    提取前两个关键词使用textrankKeywords函数,并设置“MaxNumKeywords”选项2

    台= textrankKeywords(文档,“MaxNumKeywords”, 2)
    台=5×3表关键字DocumentNumber得分  _____________________________________ ______________ ______ " 有用”“MATLAB”“工具箱”1 4.8695“有用”“”“”1 2.3612“许多”“功能”““2 4.0815”文本”“”“”“”“”“3 1”图像3 1

    如果关键字包含多个单词,则字符串数组的第Th元素对应于关键字的字。如果关键字的单词比最长关键字的单词少,则字符串数组的其余条目为空字符串""

    属性将多字关键字转换为单个字符串,以提高可读性加入功能。

    如果> 1 tbl. size(tbl. keyword,2);关键字= strip(join(tbl.Keyword));结束资源描述
    台=5×3表关键字DocumentNumber得分  _________________________ ______________ ______ " 有用的MATLAB工具箱4.8695“1”有用“1 2.3612”许多特性“2 4.0815”文本“3 1”图片“3 1

    输入参数

    全部折叠

    输入文档,指定为tokenizedDocument数组、字的字符串数组或字符向量的单元格数组。如果文档不是一个tokenizedDocument数组,则它必须是表示单个文档的行向量,其中每个元素都是一个单词。要指定多个文档,请使用tokenizedDocument数组中。

    名称-值对的观点

    指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

    例子:textrankKeywords(文档、“MaxNumKeywords”20)每个文档最多返回20个关键字。

    每个文档返回的关键字的最大数量,指定为逗号分隔对,由“MaxNumKeywords”一个正整数或

    如果MaxNumKeywords,则该函数返回所有标识的关键字。

    数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64

    共现窗口的大小,指定为逗号分隔的对“窗口”一个正整数或

    当窗口大小为2时,该函数仅当两个候选关键字连续出现在文档中时才考虑它们之间的共现。当窗口大小为,则当两个候选关键字同时出现在同一文档中时,该函数将考虑它们之间的共现。

    增加窗口大小使功能能够找到更多关键字之间的共同出现,从而增加关键字的重要性得分。这可能会导致你找到更多相关的关键字,但代价可能是给不那么相关的关键字打高分。

    有关更多信息,请参见TextRank关键字提取

    数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64

    用来提取候选关键字的词性标签,指定为逗号分隔对,由“PartOfSpeech”以及字符串数组、字符向量单元格数组或包含下列一个或多个类名的类别数组:

    • “形容词”——形容词

    • “adposition”——Adposition

    • “副词”——副词

    • “助动词”——助动词

    • “coord-conjunction”——并列连接词

    • “限定词”——决定因素

    • “感叹词”——感叹词

    • “名词”- - - - - -名词

    • “数字”——数字

    • “粒子”——粒子

    • “代词”——代词

    • “专有名词”(专有名词

    • “标点符号”(标点符号

    • “subord-conjunction”- - - - - -从属conjucntion

    • “象征”——象征

    • “动词”——动词

    • “其他”——其他

    如果PartOfSpeech是一个字符向量,那么它必须对应于一个单独的词性标签。

    有关更多信息,请参见TextRank关键字提取

    数据类型:字符|字符串|细胞|分类

    输出参数

    全部折叠

    提取的关键字和分数,返回为带有以下变量的表:

    • 关键字-提取关键字,指定为1-by-maxNgramLength字符串数组,maxNgramLength是最长关键字中的字数。

    • DocumentNumber—包含相应关键字的文档编号。

    • 分数—关键字评分。

    当多个关键字连续出现在相应的文档中时,该函数将它们合并为单个关键字。

    如果关键字包含多个单词,则对应的字符串数组的第Th元素对应于关键字的字。如果关键字的单词比最长关键字的单词少,则字符串数组的其余条目为空字符串""

    有关更多信息,请参见TextRank关键字提取

    更多关于

    全部折叠

    语言的注意事项

    textrankKeywords函数只支持英语、日万博1manbetx语、德语和韩语文本。

    textrankKeywords函数通过基于词性标签识别候选关键字来提取关键字。该函数使用的词性标签addPartOfSpeechDetails这个函数只支持英语、日语、德语万博1manbetx和韩语文本。

    对于其他语言,请尝试使用rakeKeywords属性指定一组适当的分隔符“分隔符”“MergingDelimiters”选项。

    提示

    • 你可以尝试不同的关键字提取算法,看看什么最适合你的数据。由于TextRank关键字算法采用基于词性标签的方法提取候选关键字,因此提取的关键字可以很短。或者,您可以尝试使用RAKE算法提取关键字,该算法提取分隔符之间出现的标记序列作为候选关键字。要使用RAKE提取关键字,请使用rakeKeywords函数。想要了解更多,请看利用RAKE从文本数据中提取关键字

    算法

    全部折叠

    TextRank关键字提取

    对于每个文档,textrankKeywords函数根据下面的步骤独立提取关键字[1]

    1. 确定候选关键词:

    2. 计算每个考生的分数:

      • 创建一个与候选关键字对应的节点的无向、无加权图。

      • 在候选关键字出现在令牌窗口中的节点之间添加边,其中窗口大小由“窗口”选择。

      • 使用PageRank算法计算每个节点的中心性,并根据候选关键字的数量权重得分。有关更多信息,请参见中心

    3. 从候选人中提取热门关键词:

      • 根据考生的分数选择前三分之一的候选关键词。

      • 如果任何候选关键字连续出现在文档中,那么将它们合并为单个关键字并对相应的分数求和。

      • 返回顶部k关键字,k是由“MaxNumKeywords”选择。

    语言细节

    tokenizedDocument对象包含有关标记的详细信息,包括语言细节。输入文档的语言细节决定了textrankKeywords.的tokenizedDocument函数,默认情况下,自动检测输入文本的语言。要手动指定语言细节,请使用“语言”的名称-值对参数tokenizedDocument.要查看令牌详细信息,请使用tokenDetails函数。

    参考文献

    Mihalcea, Rada和Paul Tarau。“Textrank:将秩序带入文本。”在2004年自然语言处理经验方法会议论文集, 404 - 411页。2004.

    介绍了R2020b