Reinforcement learning for recommendation system
看了下ICML2019 Craig Boutilier, 里面给出了RL在推荐系统里形式化的框架。所以摘录一下。
状态:用户特征,用户历史,上下文特征
动作:推荐的候选(recommendation slate)
奖励: 交互行为(immediate engagement)
物品交互问题
value of slates depend on user choice model
用户选择模型联合优化