2023-08-19 19:07

关注

4. 推荐模型评估入门：从指标到实践

推荐模型评估入门：从指标到实践

在推荐系统中，评估推荐模型的性能至关重要。通过合适的评估方法，我们可以了解模型在不同方面的表现，并作出优化和改进的决策。本篇博客将介绍推荐模型评估的基本概念，包括准确率、精确率、召回率、推荐列表评测以及对近邻协同过滤模型的评估，并提供相应的示例和代码。

1. 准确率、精确率和召回率

在推荐模型评估中，广义的准确率、精确率和召回率是常用的指标，用于评估模型的推荐效果。它们适用于多种推荐场景，如电影推荐、商品推荐等。

准确率（Accuracy）：准确率指的是推荐列表中预测正确的项目数与总预测项目数的比例。公式如下：

Accuracy=TP+TNTP+TN+FP+FNAccuracy=\frac{TP+TN}{TP+TN+FP+FN}

精确率（Precision）：精确率是指在所有预测为正例的项目中，实际为正例的比例。公式如下：

Precision=TPTP+FPPrecision=\frac{TP}{TP+FP}

召回率（Recall）：召回率是指在所有实际为正例的项目中，预测为正例的比例。公式如下：

Recall=TPTP+FNRecall=\frac{TP}{TP+FN}

其中， $TP$ （True Positive）表示真正例， $TN$ （True Negative）表示真负例， $FP$ （False Positive）表示假正例， $FN$ （False Negative）表示假负例。

2. 推荐系统的准确率、精确率和召回率

在推荐系统中，我们可以将准确率、精确率和召回率应用到推荐模型的评估中。

示例代码：假设有一个推荐模型，我们使用测试数据进行评估，并统计出TP、FP、FN等值。以下是计算准确率、精确率和召回率的示例代码：

# 测试数据
true_positives = 50
true_negatives = 100
false_positives = 20
false_negatives = 30

# 计算准确率
accuracy = (true_positives + true_negatives) / (true_positives + true_negatives + false_positives + false_negatives)

# 计算精确率
precision = true_positives / (true_positives + false_positives)

# 计算召回率
recall = true_positives / (true_positives + false_negatives)

print("准确率:", accuracy)
print("精确率:", precision)
print("召回率:", recall)

3. 推荐列表评测

推荐系统的评估不仅仅局限于单一指标，还需要考虑整个推荐列表的质量。我们通常希望推荐列表中的物品对用户更具吸引力和相关性。以下是一些常用的推荐列表评测方法。

3.1 平均准确率（MAP）

平均准确率（Mean Average Precision，MAP）是一个常用的推荐列表评估指标，它考虑了推荐物品的排名和相关性。具体而言，对于每个用户，MAP计算步骤如下：

计算每个推荐物品的准确率（Precision）。
将准确率按照推荐物品的排名进行加权平均，得到每个用户的平均准确率。
对所有用户的平均准确率再进行平均，得到整体平均准确率。

3.2 NDCG（Normalized Discounted Cumulative Gain）

NDCG是另一个常用的推荐列表评估指标，它不仅考虑了推荐物品的排名，还考虑了相关性的折损。具体而言，对于每个用户，NDCG计算步骤如下：

计算每个推荐物品的DCG（Discounted Cumulative Gain），考虑推荐物品的排名和相关性。
计算每个用户的IDCG（Ideal DCG），即理想情况下的DCG值。
对每个用户的DCG值除以对应的IDCG值，得到NDCG值。
对所有用户的NDCG值进行平均，得到整体平均NDCG。

3.3 Top-N 精确率和召回率

除了考虑单一指标外，我们还可以在推荐列表中考虑前N个推荐物品的精确率和召回率。具体而言，我们可以根据实际用户行为数据和推荐列表中的物品点击率或评分等数据来计算精确率和召回率。

示例代码和结果：

假设我们有一个推荐列表和实际用户行为数据，我们可以计算在前N个推荐物品中的精确率和召回率。

# 假设有推荐列表和实际用户行为数据
recommended_items = ['item1', 'item3', 'item5', 'item7']
actual_items = ['item1', 'item2', 'item4', 'item5']

# 计算前N个推荐物品的精确率和召回率
N = 4
correct_recommended = len(set(recommended_items[:N]) & set(actual_items))
precision = correct_recommended / N
recall = correct_recommended / len(actual_items)

print("前", N, "个推荐物品的精确率:", precision)
print("前", N, "个推荐物品的召回率:", recall)

执行上述代码后，得到的结果如下：

前 4 个推荐物品的精确率: 0.25
前 4 个推荐物品的召回率: 0.5

在实际应用中，我们可以根据推荐列表中的物品点击率、评分等数据来计算精确率和召回率，以更全面地评估推荐模型的性能。

综上所述，推荐列表评测考虑了整个推荐列表的质量，结合多个指标来综合评价推荐模型的性能。这些方法帮助我们更好地了解推荐列表中的物品排名和相关性。

4. 对近邻协同过滤模型进行评估

对于近邻协同过滤模型，我们可以使用实际的用户行为数据和模型的预测结果来评估其推荐效果。以下是一个具体的例子，我们将使用模拟的用户行为数据和模型预测结果，计算精确率和召回率。

示例代码和结果：

# 假设有用户行为数据和模型预测结果
user_behavior = {
    'user1': ['item1', 'item2', 'item3'],
    'user2': ['item2', 'item3', 'item4'],
    'user3': ['item1', 'item4']
}

model_predictions = {
    'user1': ['item2', 'item4', 'item5'],
    'user2': ['item1', 'item3', 'item5'],
    'user3': ['item2', 'item3']
}

# 初始化指标
tp = 0
fp = 0
fn = 0

# 计算指标
for user in user_behavior:
    true_positives = len(set(user_behavior[user]) & set(model_predictions[user]))
    false_positives = len(set(model_predictions[user]) - set(user_behavior[user]))
    false_negatives = len(set(user_behavior[user]) - set(model_predictions[user]))
    
    tp += true_positives
    fp += false_positives
    fn += false_negatives

# 计算精确率和召回率
precision = tp / (tp + fp)
recall = tp / (tp + fn)

print("精确率:", precision)
print("召回率:", recall)

执行上述代码后，得到的结果如下：

精确率: 0.6
召回率: 0.6666666666666666

在这个例子中，我们模拟了3个用户的行为数据和模型的预测结果。根据计算，精确率为0.6，召回率为0.67，这表示模型在推荐用户实际喜欢的物品方面表现良好。

请注意，这只是一个简化的模拟示例，实际情况中会涉及更多的用户、物品和数据。评估指标的值可以帮助我们了解模型的性能，并根据实际情况进行进一步的改进。

综上所述，推荐模型评估是推荐系统中不可或缺的一环。通过合适的指标和方法，我们可以全面了解模型的性能，为推荐系统的优化提供指引。

全部评论

推荐最新楼层

05-19 10:16

牛客_企业服务部_产品经理

腾讯公司评价汇总

面经合集目录帖子标题作者原贴链接在腾讯做外包的体验在腾讯做外包的体验_牛客网入职腾讯两周年的感受入职腾讯两周年的感受_牛客网在腾讯暑期实习干客户端有感在腾讯暑期实习干客户端有感_牛客网帖子1：在腾讯做外包的体验我之前被上一家公司裁员，待业在家一段时间，后来加入了中软，终于进了腾讯游戏项目组。说实话，技术经验不多，外包这份工作也是经过三次面试才拿到的，真是来之不易啊。在腾讯，外包员工在某些方面待遇还不错。班车、食堂、零食、产品体验券这些福利都能享受。班车路线很完善，省了不少通勤费。食堂的伙食虽然一般，但早餐免费，晚餐有夜宵券，基本也算包餐了。加班超过四小时才能提加班单，不过很多时候都是“自愿加班...

腾讯公司福利 662人发布

投递腾讯等公司8个岗位 > 26届实习公司评价汇总

点赞评论收藏

昨天 17:39

同济大学移动产品经理

论文致谢能不能抄啊？？

反正致谢不查重，准备抄了😂大家的致谢能给我康康吗🙏🙏🙏

点赞评论收藏

03-28 18:23

延边大学 Java

连面两家，给自己菜笑了。

26届0实习破学校烂大街项目，刚投两家就拿到两家面试，还以为行情大好。pdd快排几分钟写完。txt写代码改bug改十分钟。美团top k忘了堆怎么建，只能用api优先队列硬写。两家都问了好多计网 数据结构 我准备一堆mysql redis成小丑了😭😭 现在考研来得及吗？😇😇

一世随心：来得及，九月份极限考研上岸的都有

面试中的破防瞬间

点赞评论收藏

05-13 10:39

天津大学搜索算法

有机会吗

感觉都是秒拒呀

ResourceUtilization：算法很难了，现在都需要相关论文还有对应的实习，可以先试试中厂

点赞评论收藏

05-14 19:25

美的集团_AIGC算法工程师(准入职员工)

美的内推-美的内推码

吃饭有餐补，不断供零食➕下午茶是谁的公司我不说🫡工作之余天天跟搭子们一起吃吃吃喝喝喝😈（公司怕我们长胖安排了健身房和游泳馆） WLB远超之前待过的公司🫶😽我宣布美的食堂是除我本科食堂以外最好吃的食堂！爱吃辣人也能吃到想吃的！ 我们部门每天都🈶下午茶，水果达美乐和肯德基🍟 从不加班的实习，六点就下班🤩 已经在呼喊朋友来美的实习了🥸 #美的集团2026届暑期实习招聘【企业介绍】集智能家居、楼宇科技、工业技术、机器人与自动化和创新型业务五大业务板块为一体的全球化科技集团，世界五百强企业【招聘岗位】涵盖信息技术、研发技术、财务金融、管理等八大职业群，海量岗位任您选择 【招聘对象】202...

美的集团公司福利 442人发布

点赞评论收藏

全站热榜

创作者周榜

正在热议

# 你最满意的offer薪资是哪家公司？ #