想回老家的潜伏者躺平又起来了

2019-07-26 23:48 已编辑字节跳动_算法工程师

关注

《强化学习》模型无关方法

模型无关学习

Monte-Carlo & Temporal Difference; Q-learning

探索与利用

on-policy 和 off-policy

SARSA

Expected value SARSA

SARSA和Q-Learning对比

on-policy和off-policy对比

on-policy	off-policy
Agent 可以选择动作	Agent 不能选择动作
Most obvious setup	Learning with exploration,playing without exploration
Agent always follows his own policy	Learning from expert(expert is imperfect)
Learning from sessions(recorded data)
can’t learn from off-policy	can learn from on-policy
SARSA	Q-learning
more…	Expected Value SARSA

经验回放

略

全部评论

推荐最新楼层

04-18 21:37

广西大学算法工程师

京东 AI Agent开发一面

1. 自我介绍2. RocketMQ 里顺序消息、普通消息、事务消息分别适合什么场景，为什么不能混着用普通消息适合最终一致、无严格顺序约束的场景，比如日志分发、画像更新、通知投递。顺序消息适合同一业务键必须按时间线推进状态的链路，比如同一工单、同一订单、同一会话的状态演进，但顺序消息的吞吐和容错设计会受到队列粒度限制。事务消息适合本地事务与异步投递之间要建立“发送承诺”的场景，比如主库先落事实，再由 MQ 推动旁路索引或下游补偿。三者不能混着用，是因为它们解决的问题不同，消费模型、失败恢复方式和成本模型也完全不同。3. 如果 RocketMQ 出现消息积压，你会怎样定位，不要只说“扩容消费者”...

AI-Agent面试实战...

点赞评论收藏

分享

昨天 23:01

广西大学算法工程师

AI Agent常考面试题汇总- Langchain篇

1. 什么是 LangChain？LangChain 是一套面向大模型应用开发的框架，核心目标不是替代模型本身，而是把模型、提示词、检索、工具调用、记忆、链式编排这些能力串起来，方便做复杂应用。它更像是“应用层基础设施”，把原本散落在 prompt、API 调用、向量库、工具调度里的逻辑统一起来。2. LangChain 包含哪些核心概念？LangChain 里比较核心的概念主要包括 Chains、Components、Prompt Templates、Example Selectors、Output Parsers、Indexes、Retrievers、ChatMessageHistory、...

AI-Agent面试实战...

点赞评论收藏

分享

04-09 10:28

北京邮电大学 golang

HR说1面2面可以使用ai，是我想的不会的可以用ai搜吗

RT，不是很好意思直接问HR

点赞评论收藏

分享

04-03 11:01

已编辑

同程旅行_前端开发

史上最尬，没有之一😂我是社招。3月26日，第7次，一面挂，就扯了20分钟，感觉可能是kpi。4月3日，今天又有电话打来了，约了下周二晚上的面试。第8次了。敢打我就敢面

奋斗的龙猫：太强了

春招至今，你的战绩如何？

点赞评论收藏

分享

昨天 09:55

山东大学 Java

最近刷到个牛油的帖子《本科毕业找不到工作，我终于承认：性格才是最大的绊脚石》，看名字也能看出来说的啥，大体想表达的意思就是大部分普本同学因为性格原因在找工作的时候屡屡碰壁。不禁让我有感而发，楼主是个地地道道的山东土狗，在读大学前就没出过我们那个全省top3的贫困小县城，对性格问题那可真是太有发言权了，今天给大家唠一唠我是怎么一路形成内心的自卑与懦弱又是怎么克服的。没捡起来的一元钱小时候家里条件特别差，虽然没到家徒四壁的程度，也是到了一块钱也得算计着花的地步，有次跟老母亲去南城赶集，我坐在自行车后座上，路上看到了闪闪的硬币。我就赶紧喊停车停车，我妈当时觉得赶着去赶集呢，因为集市上的物价会相对便宜...

我的求职进度条

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 我的求职进度条 #

1251431次浏览 9264人参与

# 第一份工作应该选择高薪还是大平台 #

221218次浏览 1047人参与

# 华泰星战营，提前锁定校招offer #

5751次浏览 293人参与

# 你简历上最心虚的一句话 #

3577次浏览 26人参与

# 考公VS就业，你怎么选？ #

100322次浏览 525人参与

# 哪些公司对双非友好 #

230525次浏览 1238人参与

# 卷__卷不过你们，只能卷__了 #

60336次浏览 758人参与

# 校招第一份工作你干了多久？ #

150395次浏览 631人参与

# 商战，最累的是我们 #

31777次浏览 99人参与

# 国企/银行/研究所公司爆料 #

209583次浏览 920人参与

# 荣耀求职进展汇总 #

1176670次浏览 5674人参与

# 比特大陆工作体验 #

18822次浏览 89人参与

# 找工作的破防时刻 #

289836次浏览 2066人参与

# 小红书求职进展汇总 #

238685次浏览 1397人参与

# 面试等了一周没回复，还有戏吗 #

240082次浏览 1842人参与

# 哪些公司在招寒假实习？ #

93822次浏览 765人参与

# 面试线索爆料 #

127434次浏览 699人参与

# 春节前，你还在投简历吗？ #

43212次浏览 351人参与

# 字节7000实习来了，你投了吗？ #

44926次浏览 351人参与

# 大疆求职进展汇总 #

700055次浏览 4351人参与

# 总结:offer选择，我是怎么选的 #

287668次浏览 1566人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务