NDCG及其实现_GRR与NDC的关系

编程小6 (1) 2024-07-08 21:23

Hi，大家好，我是编程小6，很荣幸遇见你，我把这些年在开发过程中遇到的问题或想法写出来，今天说一说
NDCG及其实现_GRR与NDC的关系,希望能够帮助你!!!。

1、
NDCG的目标：
希望得到的排序列表，质量越高越好。并且，如果将更相关的排到更前面，那么计算得到的NDCG是会越高的
。

 AUC和NDCG的区别：

 

 1、AUC的含义：把正样本排在负样本前的概率。AUC关注的是全局的排序，只要正样本排在负样本之前，就可以得分。并没有加权。

 2、NDCG也是关注排序，但是NDCG关注的是，加权排序。比如我们希望top10的排序准确度，要比bottom10的排序准确度重要。对于这种加权排序，NDCG会更加合适。

因此，AUC和NDCG的区别是，加权与否。AUC的评估中，top-10的排序质量和bottom-10的排序质量是一样重要的。但是，在NDCG中，是需要加权的，top-10的排序质量和bottom-10的排序质量的权重是不一样的。

2、

说明：sklearn只有到0.20版本才支持NDCG误差的计算，因此我们可以将该代码拷贝出来。

import numpy as np from sklearn.preprocessing import LabelBinarizer from sklearn.metrics import make_scorer from sklearn.utils import check_X_y import sys def dcg_score(y_true, y_score, k=5): order = np.argsort(y_score)[::-1] y_true = np.take(y_true, order[:k]) gain = 2 ** y_true - 1 #print(gain) discounts = np.log2(np.arange(len(y_true)) + 2) #print(discounts) return np.sum(gain / discounts) def ndcg_score(y_true, y_score, k=5): y_score, y_true = check_X_y(y_score, y_true) # Make sure we use all the labels (max between the length and the higher # number in the array) lb = LabelBinarizer() lb.fit(np.arange(max(np.max(y_true) + 1, len(y_true)))) binarized_y_true = lb.transform(y_true) print(binarized_y_true) if binarized_y_true.shape != y_score.shape: raise ValueError("y_true and y_score have different value ranges") scores = [] # Iterate over each y_value_true and compute the DCG score for y_value_true, y_value_score in zip(binarized_y_true, y_score): actual = dcg_score(y_value_true, y_value_score, k) best = dcg_score(y_value_true, y_value_true, k) #print(best) scores.append(actual / best) return np.mean(scores) # NDCG Scorer function # sklearn的NDCG对二维的计算有点问题，可以转化为三分类问题 y_true = [0, 1, 0] y_score = [[0.0, 1.0, 0.0], [1.0, 0.0, 0.0], [0.0, 1.0, 0.0]] print(ndcg_score(y_true, y_score, k=2))

说明：sklearn对二分类的NDCG貌似不是支持得很好，所以折中一下，换成三分类，第三类补成概率为0.

今天的分享到此就结束了，感谢您的阅读，如果确实帮到您，您可以动动手指转发给其他人。