滴滴定价算法

国庆前面了滴滴国际化定价算法的二面 但到10.9也没有消息,官网还没挂,不知道是否会有后续,写一下面经攒人品吧

一面
介绍项目。打断明确了产品形态,变量定义。
问了项目中的一些业务限制条件、入模变量,比如考虑成本吗,为什么没有考虑成本因素
介绍一下倾向性匹配得分的定义
为什么选择了项目中用的这个深度学习网络,有什么优点,相较于其他方法,这个网络怎么解决业务问题的困境的
再问了一些项目中的处理方式的问题,点到为止。
最后撕了个排序

二面
介绍项目。(同一面的项目)面试官提出了自己的看法认为某个地方可以有改进
介绍一下所用的模型,所用模型的损失函数是怎么组成的。
就项目展开聊了20分钟,比一面更深一点。
用什么指标去评估因果模型?
为什么元学习、因果森林效果不好,原理是?
(二面只面了半个多小时,也没有问城市选择,岗位选择,职业规划等问题,感觉面试官对我并不感兴趣,很凉)

听说滴滴都是一天面完,但我面的这个岗很奇怪,各轮面试都是分开面的,一二面隔了一周
全部评论
兄弟我跟你面的同一个岗位,也在泡
点赞 回复 分享
发布于 2023-10-24 10:57 广东
兄弟不慌,我也是分开面的,国庆前面了两面,第三面还没消息。回你一下,我也能攒人品,哈哈哈哈
点赞 回复 分享
发布于 2023-10-11 16:25 广东

相关推荐

03-20 11:09
已编辑
中国地质大学(北京) Java
面试官你好,我叫汪明海,目前是中国地质大学(北京)计算机技术专业硕士在读,本科是电子信息工程专业,研究生期间 GPA 3.7,专业排名前10%。我主要专注于 Java 后端开发方向,具备扎实的基础和一定的高并发系统实践经验。在百度有一段接近一年的后端开发实习经历,期间作为模块负责人参与了一个高并发图生视频系统的开发。这个系统日活大约10万,轮询峰值达到7000 QPS。在这个项目中,我主要做了几件比较有价值的事情:架构权衡选择缓存来解决高qps的问题对大表进行分表解决海量数据问题对用户上传图片去重降低存储成本同时解决线上问题和完善监控保证系统稳定除此之外,我还独立设计并实现过一个电商交易系统,完整覆盖用户、订单、库存、支付等核心链路。在这个项目中重点解决了分布式场景下的库存超卖、接口幂等、订单状态一致性等问题,比如通过分布式锁 + 乐观锁 + RabbitMQ 实现库存控制和延迟关单。技术上我比较熟悉 Java、Spring Boot、MySQL、Redis,也有一定的分布式系统和高并发处理经验。我个人做事比较踏实,执行力强,也比较喜欢深入分析问题和做系统优化。希望能在后端方向继续深入发展,参与更大规模系统的设计和优化。围绕项目,无八股算法部署服务的方式pod 最大多少个:高峰期7k QPS: 20到30个 Pod每个pod占用的资源:API 查询和任务消费/回调合并在一个 Pod 内,这类 Pod 既有高并发读流量,又有异步写和状态更新,也就是2C4G request,4C8G limit。分表的分页表怎么做有没有更好的方案  从产品思维:根据用户会员等级,限制用户查询的数量。加入缓存遇到了哪些问题:数据的不一致性问题,具体来说,当回调主动更改缓存任务状态时,有可能更改失败,因为mysql和redis的更新不在一个事务内,这个时候ttl就发挥了作用,视频生成的平均时长是2到3分钟,ttl设置为3分钟,当任务过期就被清楚,从数据库取出最新的数据,保证了redis和缓存的一致性消费者怎么回调:消费者回调通过rpc的方式回调我们的服务,传入状态和视频结果等信息,我们的服务去更新数据库和缓存服务之间调用的输入输出  用了 rpc 的什么协议调用的:百度内部常见的 RPC 框架是 brpc。它底层一般跑在 TCP 之上,消息序列化常用 protobuf;协议层不是只有一种,百度内部常见有 baidu_std 等私有协议,brpc 同时也兼容 HTTP、gRPC、Thrift 等多种协议。HTTP 协议通常把数据组织成请求报文和响应报文。无论请求还是响应,整体结构都是请求行、头部、空行和消息体。起始行用来说明请求方法、路径、版本,或者响应状态码;头部用 key-value 的形式描述元信息,比如内容类型、长度、认证信息;空行用来分隔头部和消息体;消息体里才是真正的业务数据,比如 JSON、表单或者二进制文件。因为底层 TCP 是字节流,没有消息边界,所以 HTTP 还会通过 Content-Length 或 chunked 机制来标识消息体长度。rpc和http的区别我的理解是,HTTP 和 RPC 的核心区别在于抽象层次不同。HTTP 是一种通用的应用层通信协议,通常是面向 URL 和资源来设计接口;而 RPC 是一种远程调用模型,目标是让调用远程服务像调用本地方法一样。在使用场景上,HTTP 更适合前后端交互和对外开放接口,因为标准统一、通用性强;RPC 更适合内部微服务调用,因为通常会结合二进制序列化、长连接和服务治理能力,在性能和调用效率上更有优势。不过两者不是完全对立的,因为 RPC 也可以基于 HTTP 来实现,比如 gRPC 就是基于 HTTP/2。在这个项目中的一些不足和经验我觉得这个项目有两个比较明显的不足。第一,前期方案选型时,我们基于当时的成本、风险和收益考虑,选择了缓存方案,这个决策在当时是合理的,能快速支撑业务上线。但后面随着流量增长,我发现轮询查缓存的方式扩展性有限,后续更适合往服务端主动推送的方向演进。这个经历让我意识到,技术方案要结合业务阶段做取舍,也要提前考虑后续架构升级路径。第二,项目里对慢 SQL 的监控还不够完善,缺少及时报警机制。这样会导致数据库性能问题不能第一时间暴露。后来我复盘时觉得,除了完成功能,线上监控和告警体系也非常重要,尤其是慢 SQL、接口耗时和错误率这类指标,应该尽早纳入日常治理。所以这个项目最大的收获是,我现在做项目不只关注功能实现,还会更关注方案演进能力,以及系统上线后的监控和稳定性建设未来技术规划我对未来的职业规划,现阶段还是希望先立足于技术成长。短期内,我希望先把基础打扎实,不只是把功能做出来,而是真正理解业务,提升自己在代码质量、系统设计、问题排查和工程规范上的能力。中期的话,我希望能参与更有挑战性的项目,比如高并发场景、微服务架构、性能优化这类方向。因为我觉得这些场景能更快锻炼一个工程师的技术深度和系统性思维。长期来看,我希望自己不仅能解决具体技术问题,也能独立负责一个模块,能够把业务理解和技术实现结合起来,做一个既懂技术、也能真正支撑业务发展的工程师。如何看待和应对项目中期进度不理想、需要赶工的情况?这个问题重点是:态度 + 方法论可以这样回答:我觉得这种情况在项目中是比较常见的,关键是如何理性应对,而不是盲目加班。我一般会从几个方面处理:① 先分析原因是需求变更?技术难度被低估?还是沟通问题?② 优先级重排区分核心功能 vs 非核心功能必要时做取舍(保证主线)③ 提升执行效率拆任务,减少阻塞提前沟通依赖问题合理利用工具(包括 AI)④ 主动沟通及时同步风险和负责人一起调整计划⑤ 对赶工的态度我可以接受阶段性加班,但不提倡长期透支,更重要的是通过复盘避免以后再次出现类似问题。
查看12道真题和解析
点赞 评论 收藏
分享
03-29 21:35
已编辑
中山大学 算法工程师
1️⃣讲一下强化学习 reward 函数设计。(1)可验证奖励( RLVR ):对有确定答案的任务(数学、代码),用 ground - truth 结果验证(正确+1,错误0/-1)。(2)奖励模型( RM - based Reward ):对主观任务(对话、写作),训练 RM 从偏好数据学习打分。(3)规则奖励:对特定安全/格式要求,用硬规则直接判断。2️⃣现有 Embedding 模型相比 CLIP 的区别?(1)训练目标不同: CLIP 用 InfoNCE 做图文对比,目标是让匹配图文对相似;专用模型用 SimCSE /三元组损失/ NLI 监督/多任务,目标是精确捕捉文本语义的细粒度差异。(2)数据质量不同:专用模型训练于高质量语义标注对,语义标注精准; CLIP 训练于网络爬取图文对,文本侧噪声大、以短标题为主,不利于文本语义建模。(3)性能对比: MTEB 基准上, BGE - Base /E5- Base 等在文本检索、语义相似度等任务上大幅领先 CLIP ;但 CLIP 在图文检索上仍有独特优势。3️⃣ GRPO 和 PPO 的区别。(1)架构差异: PPO 需要四个模型(策略模型π t _0、旧策略、奖励模型 RM 、价值模型 Critic ),显存占用大, Critic 的估计偏差还可能干扰 advantage 计算。 GRPO 只需策略模型,对每个 prompt 采样 G 个输出,用组内平均奖励作为 baseline 替代 Critic ,去掉了价值模型的全部开销。(2) Baseline 设计: PPO 的 baseline 是 Critic 预测的状态价值; GRPO 的 baseline 是当前 prompt 下同组 G 个 rollout 的均值。(3)适用场景: GRPO 对"组内多样性"要求高,特别适合有可验证奖励的推理任务; PPO 更通用但更复杂,适合需要精确价值估计的场景。4️⃣大模型训练流程。(1)预训练( Pre - training ):目标是从海量无标注文本(万亿 token 级别)学习语言统计规律和世界知识,任务是 next - token prediction 。(2)监督微调( SFT ):用高质量( instruction , response )对让模型学会遵循指令。(3)对齐训练( RLHF / DPO / GRPO ):让模型输出符合人类偏好,通过奖励模型反馈或直接偏好优化进一步提升质量和安全性。5️⃣微调大模型如何卡阈值。可验证任务(数学/代码)用"正确性"作为硬阈值(只要正确的);生成任务用 RM 综合分数阈值。6️⃣为什么 CLIP 的嵌入效果不好?①文本编码器仅支持77 tokens (基于 GPT -2架构),无法处理长文本;② nfoNCE 对比目标只要求"匹配图文对靠近",不需要区分文本之间的细粒度语义差异,嵌入空间对文本相似度分辨能力弱;③预训练数据以互联网短标题为主,语义噪声大,文本侧质量不足;④对文本扰动敏感(微小改动可能导致检索排序大变)。7️⃣[代码题]手撕了 InfoNCE 代码 InfoNCE loss 的实现﹣﹣计算相似度矩阵(点积/余弦)、温度缩放、对角线为正样本的 cross - entropy loss ,批次内负样本。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看7道真题和解析
点赞 评论 收藏
分享
评论
4
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务