与BM25算法文档相似之处
使用bm25Similarity
计算文档相似之处。
默认情况下,这个函数计算BM25相似之处。计算BM11、BM15或BM25 +相似,使用“DocumentLengthScaling”
和“DocumentLengthCorrection”
参数。
使用一个或多个指定附加选项名称-值对参数。例如,使用BM25 +算法,设置相似之处
= bm25Similarity (___,名称,值
)“DocumentLengthCorrection”
选择一个非零值。
BM25算法集合并使用信息从输入数据中的所有文件通过这个词频率(TF)和基于逆文档频率(IDF)的选项。这种行为意味着相同的文档可以产生不同的一对BM25相似性得分函数时给予不同的文档集合。
BM25算法比较文档时可以输出不同的分数。这种行为是由于使用IDF权重和文档长度BM25算法。
[1]罗伯逊、斯蒂芬和雨果•萨拉戈萨。“概率相关性框架:BM25和超越。”在信息检索基础和趋势®3,没有。4 (2009):333 - 389。
[2]巴里奥斯,费德里科•路易斯·尔塔和罗莎Wachenchauzer费德里科•洛佩兹。“变化的相似性函数TextRank自动总结。”arXiv预印本arXiv: 1602.03606(2016)。
tokenizedDocument
|bleuEvaluationScore
|rougeEvaluationScore
|cosineSimilarity
|textrankScores
|lexrankScores
|mmrScores
|extractSummary