阿里淘天大模型算法一面 4.10

时长大概1h15m,压力很大,整个过程会不断的打断和追问
1. 介绍grpo和ppo的区别,会频繁打断,不让讲太多,要求精确讲出核心区别
2. ppo的clip操作的作用
3. 重要性采样的作用,除了和clip操作结合限制更新幅度还有什么作用,这种操作和使用kl散度限制更新的区别是什么
4. 马尔可夫性质是什么
5. 从早期的策略梯度算法到现在grpo,有很多模块或者说设定是保留下来的,有些是丢掉了,讲一下发展脉络,为什么要保留/丢掉那些模块
6. 开共享屏幕聊论文,背景,任务设定,对应的实际业务场景
7. workflow,训练方法,用到的公式细节,且会质疑你的数学公式
8. 力扣173,二叉搜索树迭代器,要求先讲思路,三种解法(暴力-优化-正解)
全部评论

相关推荐

04-08 21:15
门头沟学院 Java
给我面没招了,感觉自己好菜、面试很难,还是要多多练习1.介绍实习2.怎么对多场景 / 多 context 的 agent 进行拆分的?3.你刚才说到虽然对用户来说是在一个对话窗口内,但在你们看来前后诉求其实是不同业务,所以你们拆了多agent。那如果还是一个 agent、上下文和知识库也保持一个 agent,它是会记不住吗?还是为什么一定要拆?4.你们怎么判断该调哪一个 agent?代码具体是怎么实现的?5.你们这个 LLM 是有多个可以选的吗?还是统一用某家公司的模型,或者自己搭建的?6.同样的问题、同样的用例去测试过不同LLM模型吗?7.你用了 Redis 做缓存,这个具体是用在什么地方?是在知识库 / tool 之类的场景吗?8.假如没有这个热点数据缓存,那这些数据会去哪里取?9.但按我理解,这种链路里哪怕数据库慢一点,比如 100ms 和 10ms 或 1ms 的区别,好像也未必特别大,你怎么看?10.你自己当时有过这种疑问吗?就是这套方案里到底需不需要上缓存?11.假如没有缓存,或者缓存失效时还是要查数据库;而数据库又特别慢的话,你会想到哪些优化措施?如果数据量真的特别大。12.如果做分库分表,通常只能按一个维度分,比如用户 ID。那假如我还要支持一些低频、但会按其他字段组合查询的场景,你会怎么设计?13.我举个例子,比如订单表按订单 ID 分表,但后台页面可能要按创建时间、订单状态、店铺 ID 去查,这种低频但多条件查询的场景,你会怎么做?手撕:三数之和
查看13道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务