滴滴算法实习生—简历直达leader
岗位职责:
司机行为建模:基于海量司机出行数据,使用离线强化学习(Offline RL)方法,学习高收益司机的接单与路径策略,指导其他司机实现接单率与收入提升。
离线强化学习算法研发:研究并实现离线强化学习算法(如 CQL、IQL、Diffusion RL 等),并在大规模网约车时空调度数据中验证和优化
数据建模与状态表示:将司机接单行为抽象为马尔可夫决策过程(MDP),设计合理的状态、动作、奖励建模方式(如时间-空间热区、预估收入、等待成本)。
任职要求
教育背景:计算机、人工智能、应用数学、运筹学相关专业本科及以上学历,或具备同等水平的经验。
强化学习能力:
理解强化学习基本框架(MDP、Q-learning、Policy Gradient 等),对离线强化学习算法(CQL、IQL、BCQ、TD3+BC 等)有一定了解或实践兴趣。
有 RL 训练 pipeline 搭建、数据预处理或模型调参经验者优先。
机器学习能力:熟悉深度学习在时空建模、推荐排序或调度优化中的应用。
编程与大数据能力:
精通 Python,掌握 TensorFlow/PyTorch。
能处理大规模数据,熟悉 Hive/Spark/SQL。
业务理解:对网约车/即时配送/调度优化有兴趣,能够将算法抽象到业务目标(司机收入、接单率、完单率提升)。
加分项
在离线强化学习、序列决策、推荐优化等方向有论文发表或竞赛经验者优先。
有大规模推荐系统、广告策略优化、调度优化的落地经验。
欢迎对强化学习感兴趣的小伙伴积极投递简历
邮箱:rileywu@didiglobal.com
司机行为建模:基于海量司机出行数据,使用离线强化学习(Offline RL)方法,学习高收益司机的接单与路径策略,指导其他司机实现接单率与收入提升。
离线强化学习算法研发:研究并实现离线强化学习算法(如 CQL、IQL、Diffusion RL 等),并在大规模网约车时空调度数据中验证和优化
数据建模与状态表示:将司机接单行为抽象为马尔可夫决策过程(MDP),设计合理的状态、动作、奖励建模方式(如时间-空间热区、预估收入、等待成本)。
任职要求
教育背景:计算机、人工智能、应用数学、运筹学相关专业本科及以上学历,或具备同等水平的经验。
强化学习能力:
理解强化学习基本框架(MDP、Q-learning、Policy Gradient 等),对离线强化学习算法(CQL、IQL、BCQ、TD3+BC 等)有一定了解或实践兴趣。
有 RL 训练 pipeline 搭建、数据预处理或模型调参经验者优先。
机器学习能力:熟悉深度学习在时空建模、推荐排序或调度优化中的应用。
编程与大数据能力:
精通 Python,掌握 TensorFlow/PyTorch。
能处理大规模数据,熟悉 Hive/Spark/SQL。
业务理解:对网约车/即时配送/调度优化有兴趣,能够将算法抽象到业务目标(司机收入、接单率、完单率提升)。
加分项
在离线强化学习、序列决策、推荐优化等方向有论文发表或竞赛经验者优先。
有大规模推荐系统、广告策略优化、调度优化的落地经验。
欢迎对强化学习感兴趣的小伙伴积极投递简历
邮箱:rileywu@didiglobal.com
全部评论
相关推荐
点赞 评论 收藏
分享