牛客图书馆 > 读书笔记
  • Machine Learning 16th

    强化学习的目的是要找到能使长期累积奖赏最大化的策略.在某种意义上可看作具有"延迟标记信息"的监督学习问题. 每个动作的奖赏值往往来自于一个概率分布,因此强化学习会面临"探索-利用窘境",因此...
    Just丶Like 编辑于 2019-11-22 17:52:35