首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
首页 /
面试大全
#
面试大全
#
2557次浏览
21人互动
收藏话题
分享
此刻你想和大家分享什么
热门
最新
2023-06-29 11:46
阿里巴巴_算法工程师
强化学习面试必知必答[10]:模仿学习、行为克隆、逆强化学习
强化学习从基础到进阶--案例与实践含面试必知必答[10]:模仿学习、行为克隆、逆强化学习、第三人称视角模仿学习、序列生成和聊天机器人 模仿学习(imitation learning,IL) 讨论的问题是,假设我们连奖励都没有,要怎么进行更新以及让智能体与环境交互呢?模仿学习又被称为示范学习(learning from demonstration),学徒学习(apprenticeship learning),观察学习(learning by watching)。在模仿学习中,有一些专家的示范,智能体也可以与环境交互,但它无法从环境里得到任何的奖励,它只能通过专家的示范来学习什么是好的,什么是不好...
强化学习(原理+项目)
点赞
评论
收藏
分享
2023-06-29 11:45
阿里巴巴_算法工程师
强化学习面试必知必答[9]:稀疏奖励、分层强化学习HRL
强化学习从基础到进阶--案例与实践含面试必知必答[9]:稀疏奖励、reward shaping、curiosity、分层强化学习HRL 实际上用强化学习训练智能体的时候,多数时候智能体都不能得到奖励。在不能得到奖励的情况下,训练智能体是非常困难的。例如,假设我们要训练一个机器臂,桌上有一个螺丝钉与一个螺丝起子,要训练它用螺丝起子把螺丝钉栓进去很难,因为一开始智能体是什么都不知道,它唯一能够做不同的动作的原因是探索。例如,我们在做 Q学习 的时候会有一些随机性,让它去采取一些过去没有采取过的动作,要随机到,它把螺丝起子捡起来,再把螺丝栓进去,就会得到奖励1,这件事情是永远不可能发生的。所以,不管...
强化学习(原理+项目)
点赞
评论
收藏
分享
2023-06-30 15:59
阿里巴巴_算法工程师
强化学习[11]:AlphaStar论文解读、监督学习
强化学习从基础到进阶–案例与实践[11]:AlphaStar论文解读、监督学习、强化学习、模仿学习、多智能体学习、消融实验 AlphaStar及背景简介 相比于之前的深蓝和AlphaGo,对于《星际争霸Ⅱ》等策略对战型游戏,使用AI与人类对战的难度更大。比如在《星际争霸Ⅱ》中,要想在玩家对战玩家的模式中击败对方,就要学会各种战术,各种微操和掌握时机。在游戏中玩家还需要对对方阵容的更新实时地做出正确判断以及行动,甚至要欺骗对方以达到战术目的。总而言之,想要让AI上手这款游戏是非常困难的。但是DeepMind做到了。 AlphaStar是DeepMind与暴雪使用深度强化学习技术实现的计算机与...
强化学习(原理+项目)
点赞
评论
收藏
分享
提到的真题
返回内容
玩命加载中
创作者周榜
更多
热议话题
更多
1
...
一人一个landing小技巧
0
2
...
你们公司哪个部门最累?
0
3
...
牛友们的论文几号送审
0
4
...
这些公司卡简历很严格
0
5
...
大学最后一个寒假,我想……
0
6
...
你们公司几号发工资
0
7
...
Tplink求职进展汇总
0
8
...
国企还是互联网,你怎么选?
0
9
...
工作压力大怎么缓解
0
10
...
正在实习的你,有转正机会吗?
0
牛客网
牛客企业服务