bm25Similarity
文档与BM25算法相似之处
语法
描述
使用bm25Similarity
计算文档相似度。
默认情况下,该函数计算BM25相似度。要计算BM11、BM15或BM25+相似度,请使用“DocumentLengthScaling”
而且“DocumentLengthCorrection”
参数。
使用一个或多个名称-值对参数指定其他选项。例如,如果要使用BM25+算法,请设置相似之处
= bm25Similarity (___,名称,值
)“DocumentLengthCorrection”
选项设置为非零值。
例子
输入参数
输出参数
提示
BM25算法通过基于词频(TF)和逆文档频(IDF)的选项聚合并使用来自输入数据中的所有文档的信息。这种行为意味着,当函数具有不同的文档集合时,同一对文档可以产生不同的BM25相似度分数。
BM25算法在比较文档时可以输出不同的分数。这种行为是由于在BM25算法中使用了IDF权重和文档长度。
算法
参考文献
[1]罗伯逊,斯蒂芬和雨果萨拉戈萨。概率相关性框架:BM25及以上信息检索的基础和趋势3,没有。4(2009): 333-389。
[2]巴里奥斯,费德里科,费德里科López,路易斯·阿格里奇和罗莎·瓦肯肖泽。“TextRank的相似函数的变化自动摘要。”arXiv预印arXiv:1602.03606(2016)。
版本历史
R2020a中引入