首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
课程
专栏·文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
在线笔面试、雇主品牌宣传
登录
/
注册
首页 /
强化学习
#
强化学习
#
5453次浏览
87人互动
收藏话题
分享
此刻你想和大家分享什么
身份认证
热门
最新
Chenyibo
03-15 13:51
米哈游_前端工程师
米哈游校招-强化学习工程师
工作职责岗位内容:强化学习前沿算法的探索针对游戏相关场景完成强化学习算法的实验与项目落地任职要求岗位要求:1. 具备扎实的深度强化学习技术积累和实践经验2. 具有良好的解决问题和沟通能力,对技术和游戏充满热情3. 发表过相关顶会文章或参与过相关高品质项目开发#春招##校招##强化学习##算法#
投递米哈游等公司9个岗位
点赞
评论
收藏
转发
米哈游内推使者
04-18 00:49
米哈游_前端开发
米哈游【社招】-强化学习研究员
工作职责1. 利用强化学习技术解决项目实际问题,推进相关业务落地;2. 探索最前沿的强化学习理论和算法,并且能够结合运用到项目中。任职要求1. 本科以上学历,计算机等相关专业,扎实的深度强化学习和技术积累;2. 发表过强化学习等相关领域的顶会论文或高品质项目开发经验;3. 熟练使用强化学习框架,有分布式强化学习积累优先;4. 具备良好的解决问题与团队沟通能力,对技术和游戏充满热情。投递链接https://jobs.mihoyo.com/?sharePageId=33869&recommendationCode=NTAWnlu&isRecommendation=true#/position/3801#内推##社招##强化学习#
投递米哈游等公司9个岗位
点赞
评论
收藏
转发
yang1208
2022-10-19 11:29
已编辑
算法工程师
零跑汽车- 强化学习算法工程师面经
因为投的比较晚,所以目前进行到一面,后面是主管面和HR 面。 一面(1小时20分钟):主要是聊项目和论文,撕了一道蒙特卡洛估计的题 从论文的DDPG算法开始聊,TD3,SAC算法,应用场景,优缺点啥的 聊王者荣耀比赛,从网络结构设计(特征工程、channel attention,self-attention,multi-head value estimation),奖励函数设计,算法设计(dual-clip PPO + NoisyNet, 此处对RL 中的探索方法展开了一下),训练流程设计(自对弈模型筛选、策略集成),聊完之后面试官已经比较满...
投递零跑科技等公司9个岗位 >
点赞
评论
收藏
转发
Tina20190914112172
2021-11-15 16:32
机器学习
抓住2021的尾巴,强化学习实习个人经历
自己的研究方向是强化学习,最近投了三个有强化学习岗位公司的实习,比较幸运,因为问的问题都比较简单,最后全都收到了实习offer😄 滴滴:网约车策略与技术部运筹调度实习生 一面 1.自我介绍,介绍简历项目 2.场景题:跨区域车辆调度问题设计 3.算法题: 单个数组找单个重复元素 单个数组(100个数)找25个重复元素 二面 1.自我介绍,介绍简历项目 2.智力题: 去掉大小王的52张扑克牌抽中5张同花顺的概率 延伸:抽到五张顺子的概率 瓶盖换饮料问题(3换1),喝100瓶需要买多少瓶 3.机器学习:SVM,LR...
投递商汤科技等公司9个岗位 >
点赞
评论
收藏
转发
yang1208
2022-10-17 12:08
已编辑
算法工程师
秋招offfer投票
本人985本硕,假设下面的都能拿到,大家觉得哪个好一点? 有没有懂哥
点赞
评论
收藏
转发
汀丶人工智能
2023-07-17 22:26
阿里巴巴_算法工程师
人工智能LLM模型:奖励模型的训练、PPO 强化学习的训练
人工智能LLM模型:奖励模型的训练、PPO 强化学习的训练、RLHF 1.奖励模型的训练 1.1大语言模型中奖励模型的概念 在大语言模型完成 SFT 监督微调后,下一阶段是构建一个奖励模型来对问答对作出得分评价。奖励模型源于强化学习中的奖励函数,能对当前的状态刻画一个分数,来说明这个状态产生的价值有多少。在大语言模型微调中的奖励模型是对输入的问题和答案计算出一个分数。输入的答案与问题匹配度越高,则奖励模型输出的分数也越高。 1.2 奖励模型的模型架构与损失函数 1.2.1 模型架构 奖励模型(RM 模型)将 SFT 模型最后一层的 softmax 去掉,即最后一层不用 softmax,改成一个...
AI前沿技术
点赞
评论
收藏
转发
汀丶人工智能
2023-06-19 13:28
阿里巴巴_算法工程师
强化学习从基础到进阶-案例与实践[1]:强化学习概述序列决策
强化学习从基础到进阶-案例与实践[1]:强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验 1.1 强化学习概述 强化学习(reinforcement learning,RL) 讨论的问题是智能体(agent)怎么在复杂、不确定的环境(environment)中最大化它能获得的奖励。如图 1.1 所示,强化学习由两部分组成:智能体和环境。在强化学习过程中,智能体与环境一直在交互。智能体在环境中获取某个状态后,它会利用该状态输出一个动作 (action),这个动作也称为决策(decision)。然后这个动作会在环境中被执行,环境会根据智能体采取的动作,输出下一个状...
强化学习(原理+项目)
点赞
评论
收藏
转发
想潜水的熊猫在摸鱼
2023-12-09 13:40
华中科技大学
#方向选择##强化学习##研究生找实习求建议#大四研0迷茫中。大三学了些JAVA,做过几个项目,但还没接触分布式;研究生的方向是强化学习,现在仍然是萌新小白状态。我应该继续深入后端技术找个实习还是去卷强化学习(感觉岗位很少)😔
点赞
评论
收藏
转发
求一个offerofferoffer呀
2022-09-24 23:23
机器学习
0 offer求捞
985硕,211本,强化学习,深度学习,算法工程师 论文3篇。 目前0 offer,哎今年太难了。有没有好心企业捞一波的 base 江浙沪地区。
点赞
评论
收藏
转发
汀丶人工智能
2023-06-25 00:04
阿里巴巴_算法工程师
强化学习面试必知必答[4]::深度Q网络-DQN、经验回放等
强化学习从基础到进阶-常见问题和面试必知必答[4]::深度Q网络-DQN、double DQN、经验回放、rainbow、分布式DQN 1.核心词汇 深度Q网络(deep Q-network,DQN):基于深度学习的Q学习算法,其结合了价值函数近似(value function approximation)与神经网络技术,并采用目标网络和经验回放等方法进行网络的训练。 状态-价值函数(state-value function):其输入为演员某一时刻的状态,输出为一个标量,即当演员在对应的状态时,预期的到过程结束时间段内所能获得的价值。 状态-价值函数贝尔曼方程(state-valu...
强化学习(原理+项目)
点赞
评论
收藏
转发
汀丶人工智能
2023-06-29 11:46
阿里巴巴_算法工程师
强化学习面试必知必答[10]:模仿学习、行为克隆、逆强化学习
强化学习从基础到进阶--案例与实践含面试必知必答[10]:模仿学习、行为克隆、逆强化学习、第三人称视角模仿学习、序列生成和聊天机器人 模仿学习(imitation learning,IL) 讨论的问题是,假设我们连奖励都没有,要怎么进行更新以及让智能体与环境交互呢?模仿学习又被称为示范学习(learning from demonstration),学徒学习(apprenticeship learning),观察学习(learning by watching)。在模仿学习中,有一些专家的示范,智能体也可以与环境交互,但它无法从环境里得到任何的奖励,它只能通过专家的示范来学习什么是好的,什么是不好...
强化学习(原理+项目)
点赞
评论
收藏
转发
汀丶人工智能
2023-06-28 18:55
阿里巴巴_算法工程师
强化学习面试必知必答[8]:近端策略优化PPO算法
强化学习从基础到进阶-常见问题和面试必知必答[8]:近端策略优化(proximal policy optimization,PPO)算法 1.核心词汇 同策略(on-policy):要学习的智能体和与环境交互的智能体是同一个时对应的策略。 异策略(off-policy):要学习的智能体和与环境交互的智能体不是同一个时对应的策略。 重要性采样(important sampling):使用另外一种分布,来逼近所求分布的一种方法,在强化学习中通常和蒙特卡洛方法结合使用,公式如下: ∫f(x)p(x)dx=∫f(x)p(x)q(x)q(x)dx=Ex∼q[f(x)p(x)q(x)]=E...
强化学习(原理+项目)
点赞
评论
收藏
转发
汀丶人工智能
2023-06-19 13:27
阿里巴巴_算法工程师
强化学习从基础到进阶-常见问题和面试必知必答[1]:强化学习
强化学习从基础到进阶-常见问题和面试必知必答[1]:强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验 1.强化学习核心概念 强化学习(reinforcement learning,RL):智能体可以在与复杂且不确定的环境进行交互时,尝试使所获得的奖励最大化的算法。 动作(action): 环境接收到的智能体基于当前状态的输出。 状态(state):智能体从环境中获取的状态。 奖励(reward):智能体从环境中获取的反馈信号,这个信号指定了智能体在某一步采取了某个策略以后是否得到奖励,以及奖励的大小。 探索(exploration):在当前...
强化学习(原理+项目)
点赞
评论
收藏
转发
汀丶人工智能
2023-06-02 14:31
已编辑
阿里巴巴_算法工程师
强化学习基础篇[2]:SARSA、Q-learning算法
强化学习基础篇[2]:SARSA、Q-learning算法简介、应用举例、优缺点分析 1.SARSA SARSA(State-Action-Reward-State-Action)是一个学习马尔可夫决策过程策略的算法,通常应用于机器学习和强化学习学习领域中。它由Rummery 和 Niranjan在技术论文“Modified Connectionist Q-Learning(MCQL)” 中介绍了这个算法,并且由Rich Sutton在注脚处提到了SARSA这个别名。 State-Action-Reward-State-Action这个名称清楚地反应了其学习更新函数依赖的5个值,分别是当前状态...
强化学习(原理+项目)
点赞
评论
收藏
转发
刘卓然
2022-07-24 10:37
算法工程师
量化,你的最佳选择!过来一看
现招2021/2022届硕/博(当然有经验的也ok哦)985院校数学、物理、统计、计算机、软件工程、金融工程、自动化等理工科专业 [Mark]量化研究员(base北上深杭州香港,年薪30-80w+奖金+福利,特别优秀的话可有百万+,重点是基本不加班哦!!!) 【职位描述】 1、 研究股票或者期货市场的量化交易模型; 2、 配合基金经理优化、监控股票或者期货市场的量化交易策略; 3、 分析市场和交易数据的统计特性。 [Mark]C++开发工程师(base北上深杭州香港,年薪40-百万+奖金+福利,基本不加班!) 【职位描述】1、开发和优化交易系统; 2、开发回测与仿真交易平台; 3、分析系统瓶颈...
点赞
评论
收藏
转发
拣尽寒枝不肯栖by寒鸦
2021-07-26 15:38
算法工程师
强化学习
强化学习入门中,有没有可共同学习的同学😁
点赞
评论
收藏
转发
启元世界
2022-08-31 09:21
启元世界_算法工程师
启元世界秋招开启|一起创造人与 AI 共生的世界
启元世界 2023 秋季校招开启|一起创造人与 AI 共生的世界 内推请发送简历至 sunyuchen@inspirai.com! 具体岗位可见 https://mp.weixin.qq.com/s/6VZLKI3ya6Wp9geDzpOY9g
投递启元世界等公司9个岗位 >
点赞
评论
收藏
转发
汀丶人工智能
2023-06-26 22:52
阿里巴巴_算法工程师
强化学习面试必知必答演员-评论员算法A2C、A3C
强化学习从基础到进阶-常见问题和面试必知必答[6]:演员-评论员算法(advantage actor-critic,A2C),异步A2C、与生成对抗网络的联系等详解 1.核心词汇 优势演员-评论员(advantage actor-critic,A2C)算法:一种改进的演员-评论员(actor-critic)算法。 异步优势演员-评论员(asynchronous advantage actor-critic,A3C)算法:一种改进的演员-评论员算法,通过异步的操作,实现强化学习模型训练的加速。 路径衍生策略梯度(pathwise derivative policy gradient)...
数据挖掘-机器学习
点赞
评论
收藏
转发
汀丶人工智能
2023-06-07 14:55
阿里巴巴_算法工程师
强化学习基础篇[3]:DQN、Actor-Critic详解
强化学习基础篇[3]:DQN、Actor-Critic详细讲解 1.DQN详解 1.1 DQN网络概述及其创新点 在之前的内容中,我们讲解了Q-learning和Sarsa算法。在这两个算法中,需要用一个Q表格来记录不同状态动作对应的价值,即一个大小为 [状态个数,动作个数][状态个数,动作个数][状态个数,动作个数] 的二维数组。在一些简单的强化学习环境中,比如迷宫游戏中(图1a),迷宫大小为4*4,因此该游戏存在16个state;而悬崖问题(图1b)的地图大小为 4*12,因此在该问题中状态数量为48,这些都属于数量较少的状态,所以可以用Q表格来记录对应的状态动作价值。但当我们需要应用强化...
强化学习(原理+项目)
点赞
评论
收藏
转发
玩命加载中
热议话题
1
...
牛客帮帮团来啦!有问必答
0
2
...
你更愿意参加线上面试还是线下面试?
0
3
...
晒一晒我的offer
0
4
...
如何确定求职岗位
0
5
...
华为求职进展汇总
0
6
...
机械人怎么评价今年的华为
0
7
...
非技术岗薪资爆料
0
8
...
第一次面试
0
9
...
如果再来一次,你还会学硬件吗
0
10
...
海信求职进展汇总
0
牛客网
牛客企业服务