主要内容

Rakekeywords.

使用耙子提取关键字

    描述

    例子

    资源描述= rakekeywords(文件使用快速自动关键字提取(Rake)算法提取关键字和各个分数。该功能支持英语,日语,德语万博1manbetx和韩文文本。学习如何使用Rakekeywords.对于其他语言,请参阅语言考虑因素

    例子

    资源描述= rakekeywords(文件名称,价值使用一个或多个名称值对参数指定其他选项。

    小费

    Rakekeywords.默认情况下,默认情况下,使用停止单词和标点符号提取关键字。使用默认值时'分隔师''mergingdelimiters'选项,请勿从输入文本中删除停止单词或标点字符。

    例子

    全部收缩

    创建包含文本数据的令牌化文档数组。

    textdata = [“Matlab为科学家和工程师提供工具。Matlab被科学家和工程师使用。”“分析文本和图像。您可以导入文本和图像。”“分析文本和图像。分析Matlab中的文本,图像和视频。”];文档= tokenizeddocument(textdata);

    使用该关键字提取Rakekeywords.功能。

    tbl = rakekeywords(文件)
    TBL =12×3表关键字Decopernumber得分_______________________________________________________________________“MATLAB”提供“”工具“1 8”MATLAB“”“”1 2“科学家”“和”工程师“1 2”工程师“”“1 1”科学家“”““”1 1“分析”“文本”“”2 4“导入”“文本”“”2 4“图像”“”“”“2 1”分析“文本”“”“”“”“”“”“”“”“”““3 1”图像“”“”“3 1”视频“”“”“3 1

    如果关键字包含多个单词,则一世字符串数组的元素对应于一世关键字的单词。如果关键字具有更少的单词,则最长关键字,那么String数组的剩余条目是空字符串

    有关可读性,请使用“将多字关键字转换为单词”使用“加入功能。

    如果尺寸(tbl.keyword,2)> 1 tbl.keyword = strip(加入(tbl.keyword));结尾资源描述
    TBL =12×3表关键字Decopernumber得分_____________________________________________“MATLAB提供工具”1 8“MATLAB”1 2“科学家和工程师”1 2“工程师”1 1“科学家”1“分析文本”2 4“进口文本”2 4“图像”2 1“分析文本”3 4“MATLAB”3 1“图像”3 1“视频”3 1

    创建包含文本数据的令牌化文档数组。

    textdata = [“Matlab为科学家和工程师提供工具。Matlab被科学家和工程师使用。”“分析文本和图像。您可以导入文本和图像。”“分析文本和图像。分析Matlab中的文本,图像和视频。”];文档= tokenizeddocument(textdata);

    使用该提取顶部两个关键字Rakekeywords.功能和设置'maxnumkeywords'选项2

    tbl = rakekeywords(文件,'maxnumkeywords'2)
    TBL =6×3表关键字Decopernumber得分__________________________________________________________ _____“matlab”“提供”1 8“MATLAB”“”“”“”文本“”“”2 4“进口”“文本”“”2 4“分析”“文字“”3 4“matlab”“”“3 1

    如果关键字包含多个单词,则一世字符串数组的元素对应于一世关键字的单词。如果关键字具有更少的单词,则最长关键字,那么String数组的剩余条目是空字符串

    有关可读性,请使用“将多字关键字转换为单词”使用“加入功能。

    如果尺寸(tbl.keyword,2)> 1 tbl.keyword = strip(加入(tbl.keyword));结尾资源描述
    TBL =6×3表关键字DocumentNumber Score _______________________ ___________________ "MATLAB提供的工具" 1 8 "MATLAB" 1 2 "分析文本" 2 4 "导入文本" 2 4 "分析文本" 3 4 "MATLAB" 3 1

    输入参数

    全部收缩

    输入文档,指定为atokenizedDocument数组,字符串数组,或字符向量的单元格数组。如果文件不是一个tokenizedDocument阵列,那么它必须是表示单个文档的行矢量,其中每个元素是一个单词。要指定多个文档,请使用atokenizedDocument大批。

    名称值对参数

    指定可选的逗号分离对名称,价值论点。名称是参数名称和价值为对应值。名称必须出现在引号内。您可以以任何顺序指定多个名称和值对参数Name1, Value1,…,的家

    例子:Rakekeywords(文件,'maxnumkywords',20)每份文件最多20个关键字返回。

    每个文档返回的最大关键字数量,指定为包含的逗号分隔对'maxnumkeywords'和一个正整数或

    如果maxnumkeywords.,然后该函数返回所有已识别的关键字。

    数据类型:单身的|双倍的|INT8.|int16|INT32.|INT64.|uint8.|uint16|UINT32.|UINT64

    用于将文档分割成关键字的令牌,指定为由'分隔师'和字符串阵列,字符向量或字符向量的小区数组。如果分隔符是一个字符矢量,那么它必须代表一个分隔符。

    默认分隔符列表是标点符号列表。

    如果多个候选关键字在仅通过合并分隔符分隔的文档中出现,则该函数将这些关键字和合并分隔符合并为单个关键字。

    要指定用于合并的分隔符,请使用'mergingdelimiters'选择。

    分隔符匹配不区分大小写。

    数据类型:char|细绳|细胞

    分隔符也用于合并关键字,指定为逗号分隔的对'mergingdelimiters'和字符串阵列,字符向量或字符向量的小区数组。如果mergingdelimiters.是一个字符矢量,那么它必须代表一个分隔符。

    属性给出的停止词列表是合并分隔符的默认列表秒表功能。

    如果多个候选关键字在仅通过合并分隔符分隔的文档中出现,则该函数将这些关键字和合并分隔符合并为单个关键字。

    要指定不应用于合并的分隔符,请使用'分隔师'选择。

    分隔符匹配不区分大小写。

    数据类型:char|细绳|细胞

    输出参数

    全部收缩

    提取的关键字和分数,用以下变量作为表返回:

    • 关键词- 提取的关键字,指定为1-by-maxnarmlength.字符串数组,在哪里maxnarmlength.是最长关键字中的单词数。

    • 文件编号- 包含相应关键字的文档编号。

    • 分数- 关键字的分数。

    如果多个候选关键字在仅通过合并分隔符分隔的文档中出现,则该函数将这些关键字和合并分隔符合并为单个关键字。

    如果关键字包含多个单词,则一世相应的字符串阵列的Th元素对应于一世关键字的单词。如果关键字具有更少的单词,则最长关键字,那么String数组的剩余条目是空字符串

    有关更多信息,请参阅快速自动关键字提取

    更多关于

    全部收缩

    语言考虑因素

    Rakekeywords.功能仅支持英语,日万博1manbetx语,德语和韩文文本。

    Rakekeywords.函数使用基于分隔符的方法提取关键字来识别候选关键字。默认情况下,该函数使用标点符号和所提供的停止单词秒表用输入文档的语言细节给出的语言作为分隔符。

    对于其他语言,使用该语言适当的分隔符集'分隔师''mergingdelimiters'选项。

    提示

    • 您可以尝试使用不同的关键字提取算法,以查看最适合您的数据。因为Rake关键字算法使用基于分隔符的方法来提取候选关键字,所以提取的关键字可能很长。或者,您可以尝试使用Textrank算法提取关键字,该算法从单个令牌以候选关键字开头,然后在适当时合并它们。要使用Textrank提取关键字,请使用textrakkeywords.功能。要了解更多信息,请参阅使用textrank从文本数据中提取关键字

    算法

    全部收缩

    快速自动关键字提取

    对于每个文件,Rakekeywords.函数根据下面的步骤独立提取关键字[1]

    1. 确定候选关键字:

    2. 计算候选关键字的分数:

      • 使用与候选关键字中的各个令牌对应的节点创建一个无向的未加权图。

      • 在候选关键字中的节点之间添加边缘,包括在候选关键字中,包括自同步,由包含该共同发生的候选关键字的数量加权。

      • 使用公式得分每个令牌DEG(令牌)/弗雷克(令牌), 在哪里DEG(令牌)是指定令牌的边的数量和弗雷克(令牌)是在文档中发生指定令牌的次数。

      • 对于每个候选关键字,分配由包含的令牌的分数总和给出的分数。

    3. 从候选者中提取顶部关键字:

      • 如果有多个由相同单个合并分隔符分隔的同一对候选关键字的实例,则将候选关键字和分隔符合并为单个关键字并和和相应的分数。

      • 返回顶部K.关键词,其中K.由此提供'maxnumkeywords'选择。

    语言细节

    tokenizedDocument对象包含有关令牌的详细信息,包括语言详细信息。输入文档的语言细节确定了行为Rakekeywords..这tokenizedDocument函数,默认情况下,自动检测输入文本的语言。要手动指定语言细节,请使用'语'名称 - 值对参数tokenizedDocument.要查看令牌详细信息,请使用令敬当功能。

    参考文献

    [1]玫瑰,斯图尔特,戴夫恩格尔,尼克克莱默,和温迪·凯利。“自动关键字提取单个文件。”文本挖掘:应用与理论1(2010):1-20。

    在R2020B中介绍