小北的求职树洞

2025-03-22 12:28 哈尔滨工业大学产品经理发布于北京

关注

面试官：Deepseek推理大模型与指令大模型（如豆包、文心）等有什么不同？

一、训练范式与核心技术
1. 强化学习主导
- DeepSeek-R1基于大规模强化学习（RL）完成后训练，其强化学习训练占比超过95%，甚至存在完全依赖RL的DeepSeek-R1-Zero版本。
- 传统指令模型（如文心、ChatGPT O1）则更依赖监督微调（SFT）和人类反馈的强化学习（RLHF）。
2. 冷启动与多阶段训练
- DeepSeek-R1通过引入高质量“冷启动”数据辅助初始阶段学习，并结合多阶段训练策略（如拒绝采样）提升推理能力。
- 而指令模型通常直接从预训练模型通过SFT对齐人类偏好。

二、能力与任务适配性
1. 复杂推理能力
- DeepSeek-R1专门针对数学推导、代码生成、逻辑分析等复杂任务优化，其推理过程中支持自我验证、错误检测及多路径探索。
- 指令模型更侧重通用对话和指令理解，在复杂推理任务中表现较弱。
2. 生成质量差异
- DeepSeek-R1的纯RL版本（R1-Zero）存在生成内容可读性较低的问题，需通过混合训练策略改进，
- 而指令模型因依赖SFT数据，输出更符合人类语言习惯。

三、架构设计与成本效率
1. 优化算法创新
- DeepSeek-R1采用Group Relative Policy Optimization（GRPO）等新型RL算法，支持无监督条件下的推理能力进化。
- 指令模型通常沿用PPO等传统RLHF算法。
2. 成本优势
- DeepSeek-R1在同等性能下成本比OpenAI o1系列低30倍，且在数学、代码基准测试中达到甚至超越Claude 3.5 Sonnet等模型。

四、应用场景与合规性
1. 垂直领域适配
- DeepSeek-R1更适用于科研、金融等高精度推理场景，
- 而ChatGPT O1等指令模型偏向通用客服、教育等泛化场景。

#产品经理# #Ai产品经理# #AI# #牛客创作赏金赛# #牛客激励计划#

全部评论

推荐最新楼层

不进华为就延毕

桂林电子科技大学 Java

mark

点赞回复分享

发布于 2025-03-24 19:55 广西

给一个好offer吧

江苏科技大学 Java

mark

点赞回复分享

发布于 2025-03-24 19:50 江苏

04-27 16:50

防灾科技学院会计

有大佬可以看看我的简历有什么问题吗

点赞评论收藏

分享

04-28 14:58

安徽工业大学 Java

2026.4.24 谐云一面

1. 上一段实习结束原因2. 使用过JUC包下的工具吗，解决什么问题？（线程池）3. 线程池参数，怎么设计，新线程来了之后的具体情况。4. synchronized锁升级的过程。 5. redis的使用，项目和实习中。6. redis的I/O多路复用。7. redis中的大key问题。8. 实习和项目中RabbitMQ的应用。9. RabbitMQ怎么保证消息的有序性。10. 怎么保证幂等？11. MySQL索引的数据结构，为什么不使用二叉树和B树？12. B树和B+树结构上的区别。13. MySQL索引的优化，线上的或者自己项目中的。分页查询的话数据越来越重，有考虑过吗。14. 项目怎么部署...

查看15道真题和解析

点赞评论收藏

分享

04-28 03:02

武汉大学算法工程师

带薪上班这一块

点赞评论收藏

分享

04-28 20:41

上海得物信息集团有限公司_测试开发(准入职员工)

4月底，暑期实习还没上岸怎么办？紧急补救手册

前天有个同学发消息问我：  “学长，我投了快 40 家公司，面试就 4 个，还全挂了。现在 4 月底，是不是已经没机会了？”  说实话，每年到这个时间点，都是大家最焦虑的时候。看着别的同学都收到 offer，自己越面越慌，心态快崩了。 今天这篇就是给还“没上岸”的同学准备的急救包。不讲大道理，只讲接下来两周你能具体做什么。 如果你是下面这几种情况之一，这篇就是给你写的：  ✅ 投了 30+ 公司，约面不到 5 个 ✅ 面试总有 1-2 轮，但最后都挂 ✅ 感觉自己是“备胎”，面试官说“等通知”就没下文了 ✅ 眼看 5 月就要入职，offer 还没着落  记住一个数据：截至 4 月底，实际拿到暑...

我的求职进度条

点赞评论收藏

分享

评论

11

18

招聘动态

上海人工智能实验室

2026年春季校园招聘

联想

27届暑期实习

厦门银行

2026届春季校园招聘

联想

26届补录

27届校招宝典

快手

27届实习超多转正机会

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 这个offer值得去吗？ #

13887次浏览 151人参与

# 金三银四，你的春招进行到哪个阶段了？ #

35695次浏览 333人参与

# 联宝杯大学生创新大赛，你的技术值得产业级答案 #

46158次浏览 509人参与

# 如果春招能重来，我会___ #

15552次浏览 183人参与

# Prompt分享 #

77360次浏览 1274人参与

# 除了线上，还能去哪些地方投简历 #

8883次浏览 103人参与

# 校招第一份工作你干了多久？ #

152928次浏览 640人参与

# 硬件人秋招进展 #

292122次浏览 4042人参与

# 你觉得实习能学到东西吗 #

153306次浏览 1483人参与

# 搜狐工作体验 #

6819次浏览 54人参与

# 反问环节如何提问 #

141421次浏览 2740人参与

# 想做Agent可以做哪些岗位？ #

13202次浏览 417人参与

# 面试官拷打AI项目都会问什么？ #

12519次浏览 426人参与

# 招银网络科技（深圳）有限公司成都分公司笔试 #

6107次浏览 25人参与

# 你觉得最好用的AI编程工具是_ #

4857次浏览 97人参与

# 哔哩哔哩笔试 #

42351次浏览 166人参与

# 军工所铁饭碗 vs 互联网高薪资，你会选谁 #

14110次浏览 80人参与

# 你实习是赚钱了还是亏钱了？ #

127701次浏览 716人参与

# 大厂还是考编 #

134718次浏览 1399人参与

# 非技术岗简历怎么写 #

338771次浏览 3301人参与

# 实习第一天，你在干什么 #

9328次浏览 111人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务