想回老家的潜伏者躺平又起来了

2019-07-26 23:46 已编辑字节跳动_算法工程师

关注

《强化学习》 DP动态规划

奖赏设计

累计奖赏和折扣累计奖赏

数学上看，折扣奖赏机制可以将累计回报转化为递推的形式：

\begin{matrix} G_{t} & = R_{t} + γ (R_{t + 1} + γ R_{t + 2} + . . .) \\ = R_{t} + γ G_{t + 1} \end{matrix}

折扣是一种固定效应模型

奖赏设计：不要平移，奖励做什么而不是怎么做

奖赏设计：缩放，塑形

贝尔曼等式

状态值函数

值函数的贝尔曼期望等式

动作值函数

两者关系

动作值函数的贝尔曼期望等式

衡量策略优劣

贝尔曼最优等式

广义策略迭代GPI

策略评估

策略改进

GPI

策略迭代

值迭代

对比

全部评论

推荐最新楼层

04-18 21:37

广西大学算法工程师

京东 AI Agent开发一面

1. 自我介绍2. RocketMQ 里顺序消息、普通消息、事务消息分别适合什么场景，为什么不能混着用普通消息适合最终一致、无严格顺序约束的场景，比如日志分发、画像更新、通知投递。顺序消息适合同一业务键必须按时间线推进状态的链路，比如同一工单、同一订单、同一会话的状态演进，但顺序消息的吞吐和容错设计会受到队列粒度限制。事务消息适合本地事务与异步投递之间要建立“发送承诺”的场景，比如主库先落事实，再由 MQ 推动旁路索引或下游补偿。三者不能混着用，是因为它们解决的问题不同，消费模型、失败恢复方式和成本模型也完全不同。3. 如果 RocketMQ 出现消息积压，你会怎样定位，不要只说“扩容消费者”...

AI-Agent面试实战...

点赞评论收藏

分享

04-15 13:13

广西大学算法工程师

高德大模型算法开发一面(暑期)

1. 自我介绍2. 项目拷打3. Perplexity 的定义、公式和真正的使用边界是什么Perplexity 本质上是语言模型对测试序列平均不确定性的指数化表达。若测试集为(x1,…,xT),则 它等价于平均负对数似然的指数形式，值越低通常表示模型对数据分布拟合得越好。很多人只会背“越低越好”，但真正面试里要说明白：PPL 是训练分布拟合指标，不直接等价于问答质量、推理能力、事实性或者指令遵循能力。模型可能 PPL 更低，但在复杂推理或者对齐任务上不一定更强。4. 为什么不同 tokenizer 下的 Perplexity 不能直接横向比较因为 PPL 的分母是 token 数，而 toke...

AI-Agent面试实战...

点赞评论收藏

分享

04-03 11:01

已编辑

同程旅行_前端开发

史上最尬，没有之一😂我是社招。3月26日，第7次，一面挂，就扯了20分钟，感觉可能是kpi。4月3日，今天又有电话打来了，约了下周二晚上的面试。第8次了。敢打我就敢面

奋斗的龙猫：太强了

春招至今，你的战绩如何？

点赞评论收藏

分享

03-30 19:11

湖南理工学院 C#工程师

为什么找实习这么难啊

BOSS问了60家，只有三家回复我，还说只要应届生😭😭😭😭

爱读书的小章鱼很爱吃：60？我半小时就投完了

点赞评论收藏

分享

04-17 09:26

门头沟学院 Java

从CRUD仔到能扛事，实习带来的本质蜕变

刷到这个话题，想从技术成长和职业发展的角度，聊聊我的实习经历。作为计算机科班生，在学校里我总觉得，自己会写Java、会做课程设计、背熟了八股文，就算是合格的程序员了。直到去杭州一家互联网公司做后端开发实习，我才明白，学校里学的东西，和真实的工业界，隔着一道巨大的鸿沟。而让我突然觉得“这次实习值了”的瞬间，不是拿到了多少工资，不是被leader夸了一句，也不是靠实习拿到了offer，而是我独立解决了一个线上高并发场景的性能瓶颈，把接口响应耗时从2s优化到了200ms以内，方案最终被全组采纳推广的那一刻。事情是这样的，我们组负责的商品详情接口，在大促压测的时候，响应耗时严重超标，并发量一高就频繁超...

哪一刻你突然觉得实习“有...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你知道最慷慨和最抠的公司分别是 #

2697次浏览 31人参与

# 哪些AI项目值得做？ #

1760次浏览 61人参与

# 华泰星战营，提前锁定校招offer #

8157次浏览 311人参与

# 实习时最怕听到的一句话 #

2078次浏览 35人参与

# 简历上如何体现你的“AI”能力？ #

2016次浏览 42人参与

# 没有面试的日子里，你在做什么 #

2594次浏览 43人参与

# 怎么给家人解释你的工作？ #

56966次浏览 217人参与

# 你简历上最心虚的一句话 #

7125次浏览 38人参与

# 找不到大厂实习可以去小厂吗？ #

2211次浏览 25人参与

# 你总挂在第__面？ #

1158次浏览 17人参与

# 实习生如何通过转正 #

137998次浏览 1492人参与

# 国央企笔面经互助 #

196754次浏览 1235人参与

# 考公VS就业，你怎么选？ #

100632次浏览 533人参与

# 卷__卷不过你们，只能卷__了 #

60691次浏览 766人参与

# 哪些公司对双非友好 #

230954次浏览 1247人参与

# 你今年的保底offer是哪家 #

187693次浏览 760人参与

# 快消秋招求职进展汇总 #

11644次浏览 41人参与

# 嵌入式岗知多少 #

72631次浏览 571人参与

# 荣耀求职进展汇总 #

1177101次浏览 5676人参与

# 你认为哪些项目算烂大街？ #

89379次浏览 659人参与

# 不考虑薪资和职业，你最想做什么工作呢？ #

161005次浏览 904人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务