商汤科技大模型开发一面

1、自我介绍

2、通俗讲一下大模型从训练到落地到评测的全过程

可以把大模型看成一个先大量学习、再针对任务训练、最后真正上岗工作的系统。

第一步是预训练。这个阶段会给模型非常大量的文本，让它去做“根据前文预测下一个词”这样的任务。比如给它一句“今天天气很”，它要预测下一个字可能是“好”还是“热”。这个过程做得足够大以后，模型就会学到语言规律、常识知识、一些推理模式和表达能力。

第二步是微调或者对齐。预训练出来的模型虽然懂很多东西，但不一定会按人的要求回答，所以还要进一步训练。比如给它大量“问题-答案”数据，让它学会更像助手一样回复，这就是 SFT。有些场景还会继续做人类偏好对齐，比如让模型学会什么回答更好、什么回答应该拒绝。

第三步是评测。模型训练完不能直接上线，要先测。评测会看很多方面，比如问答是否正确、是否稳定、是否会胡编、是否遵守格式要求、响应速度怎么样、成本是否可控。如果是业务场景，还要用真实业务数据去测，不是只看公开榜单。

第四步是落地。真正上线时，往往不是一个裸模型直接对用户说话，而是会加很多系统能力，比如知识库检索、工具调用、日志监控、限流、缓存、结果兜底、敏感内容过滤。也就是说，真正落地的是一个完整系统，不只是一个模型。

3、GPT 和豆包这种模型是怎么训练出来的

这类模型的底层路线大体是类似的，都是先做大规模预训练，再做指令微调和对齐。

预训练阶段会准备海量文本数据，比如网页、书籍、代码、问答、百科等，然后做清洗、去重、过滤，把低质量和脏数据尽量剔除。接着用 Transformer 架构训练，让模型根据前面的 token 预测后面的 token。模型会在这个阶段获得最基础也是最核心的语言能力。

然后是指令微调阶段，会给模型喂很多 instruction-response 数据，比如“帮我写个摘要”“解释一下某个概念”“把下面内容翻译成英文”，让模型学会按照人类指令输出。这个阶段更多解决的是“模型听不听话”。

再往后通常还会做对齐，让模型回答得更自然、更安全、更符合人类偏好。比较常见的是 RLHF 或者 DPO。RLHF 一般包括奖励模型和强化学习过程，DPO 相对更简单，直接基于偏好数据优化。

最后还会做部署优化，比如量化、推理加速、KV Cache 管理、并发调度、长上下文优化等，这样模型才能真正在线服务。

4、Python 的熟悉程度怎么样

5、数据清洗里，过滤无效数据一般怎么做

数据清洗的目标是让进入训练、评测或者知识库的数据尽量有效、稳定、可用。无效数据过滤通常会从几个层面做。

先是格式层面，比如空值、乱码、字段缺失、编码异常、重复样本、超短文本、纯符号文本、HTML 垃圾内容、表格残片这些，通常直接过滤。再是内容层面，比如广告、模板化灌水、和任务无关的数据、低信息密度文本，也会剔除。对于问答数据，还会检查问题和答案是否匹配，答案是不是过短、过泛或者完全答非所问。

如果是训练数据，还会做去重和近重复过滤，因为重复太多会影响训练分布。对于知识库数据，还会关注时效性、来源可信度和字段规范性。很多业务文档看起来不空，但其实信息价值很低，这种也应该归为无效数据。

常见做法包括规则过滤、关键词黑白名单、正则表达式、长度阈值、语言检测、文本相似度去重，必要时也会用分类模型辅助判断。

import re

def is_valid_text(text):
    if not text:
        return False
    text = text.strip()
    if len(text) < 5:
        return False
    if re.fullmatch(r'[\W_]+', text):
        return False
    if "广告" in text or "点击领取" in text:
        return False
    return True

samples = ["", "   ", "%%%%", "今天天气不错", "点击领取优惠券"]
valid_samples = [x for x in

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点，内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线，提供高频题解析、标准答题思路与工程落地方法，帮助你高效查漏补缺.

全部评论

推荐最新楼层

04-30 18:42

门头沟学院人工智能

五一学习计划

五天作战计划 Day 0（4/30 晚 1.5h）— 准备 # clone 项目 git clone https://github.com/shareAI-lab/learn-claude-code.git cd learn-claude-code # 装依赖 python3 -m venv .venv source .venv/bin/activate pip install -r requirements.txt # 配 API key（重要：这次需要花点钱，详见后文成本估算） cp .env.example .env # 编辑 .env 填入 ANTHROPIC_API_KEY # 跑 ...

点赞评论收藏

05-04 09:38

已编辑

门头沟学院引擎开发

游戏技术向校招流程总结

牛客28967172...：说的还是有道理的，我校招时就拿到过网易雷火好几个顶级项目组方向的offer，基本上流程和你说的一样。但本质还是劝退互联网的游戏方向，本质上是代价更高，而且职业生涯容错率很低，方向比较窄。代价是众所周知的严重加班，游戏大版本赶工基本上通宵无休，甚至国庆五一都没放假是常态。职业生涯性价比低是因为游戏行业本质上就是赢家通吃，但你要跳槽只有腾讯网易等头部，要么就是米哈游莉莉丝库洛三七等少数中厂，然后就没了，公司是断崖的少游戏开发相比互联网方向岗位非常非常少，比如网易整个雷火也才五六百人，里面十几个工作室，招人比例非常低，其他游戏公司也是一样。而且方向也很窄，你做引擎开发就只能跳相关，你做游戏客户端也只能跳相关(游戏客户端都算吃香的，但市场hc也非常非常少，跳槽机会更少)，基本上很难转回互联网这里对比传统互联网，大厂多的都说不过来，而且容错率很大，你做搜索方向可以跳推荐，你做推荐方向可以跳广告，要求远没有游戏行业那么严，甚至你之前干测试都能跳槽研发方向

我的求职进度条

点赞评论收藏