Reinforcement learning for recommendation system

看了下ICML2019 Craig Boutilier, 里面给出了RL在推荐系统里形式化的框架。所以摘录一下。
RL框架
状态:用户特征,用户历史,上下文特征
动作:推荐的候选(recommendation slate)
奖励: 交互行为(immediate engagement)

物品交互问题

value of slates depend on user choice model
图片说明
用户选择模型联合优化

图片说明

Tractable slate optimization

Decomposed Sarsa/TD

全部评论
强化学习里prediction约等于evaluation
点赞
送花
回复
分享
发布于 2020-02-27 02:38

相关推荐

点赞 收藏 评论
分享
牛客网
牛客企业服务