商汤科技 大模型开发 一面
1、自我介绍
2、通俗讲一下大模型从训练到落地到评测的全过程
可以把大模型看成一个先大量学习、再针对任务训练、最后真正上岗工作的系统。
第一步是预训练。这个阶段会给模型非常大量的文本,让它去做“根据前文预测下一个词”这样的任务。比如给它一句“今天天气很”,它要预测下一个字可能是“好”还是“热”。这个过程做得足够大以后,模型就会学到语言规律、常识知识、一些推理模式和表达能力。
第二步是微调或者对齐。预训练出来的模型虽然懂很多东西,但不一定会按人的要求回答,所以还要进一步训练。比如给它大量“问题-答案”数据,让它学会更像助手一样回复,这就是 SFT。有些场景还会继续做人类偏好对齐,比如让模型学会什么回答更好、什么回答应该拒绝。
第三步是评测。模型训练完不能直接上线,要先测。评测会看很多方面,比如问答是否正确、是否稳定、是否会胡编、是否遵守格式要求、响应速度怎么样、成本是否可控。如果是业务场景,还要用真实业务数据去测,不是只看公开榜单。
第四步是落地。真正上线时,往往不是一个裸模型直接对用户说话,而是会加很多系统能力,比如知识库检索、工具调用、日志监控、限流、缓存、结果兜底、敏感内容过滤。也就是说,真正落地的是一个完整系统,不只是一个模型。
3、GPT 和豆包这种模型是怎么训练出来的
这类模型的底层路线大体是类似的,都是先做大规模预训练,再做指令微调和对齐。
预训练阶段会准备海量文本数据,比如网页、书籍、代码、问答、百科等,然后做清洗、去重、过滤,把低质量和脏数据尽量剔除。接着用 Transformer 架构训练,让模型根据前面的 token 预测后面的 token。模型会在这个阶段获得最基础也是最核心的语言能力。
然后是指令微调阶段,会给模型喂很多 instruction-response 数据,比如“帮我写个摘要”“解释一下某个概念”“把下面内容翻译成英文”,让模型学会按照人类指令输出。这个阶段更多解决的是“模型听不听话”。
再往后通常还会做对齐,让模型回答得更自然、更安全、更符合人类偏好。比较常见的是 RLHF 或者 DPO。RLHF 一般包括奖励模型和强化学习过程,DPO 相对更简单,直接基于偏好数据优化。
最后还会做部署优化,比如量化、推理加速、KV Cache 管理、并发调度、长上下文优化等,这样模型才能真正在线服务。
4、Python 的熟悉程度怎么样
5、数据清洗里,过滤无效数据一般怎么做
数据清洗的目标是让进入训练、评测或者知识库的数据尽量有效、稳定、可用。无效数据过滤通常会从几个层面做。
先是格式层面,比如空值、乱码、字段缺失、编码异常、重复样本、超短文本、纯符号文本、HTML 垃圾内容、表格残片这些,通常直接过滤。再是内容层面,比如广告、模板化灌水、和任务无关的数据、低信息密度文本,也会剔除。对于问答数据,还会检查问题和答案是否匹配,答案是不是过短、过泛或者完全答非所问。
如果是训练数据,还会做去重和近重复过滤,因为重复太多会影响训练分布。对于知识库数据,还会关注时效性、来源可信度和字段规范性。很多业务文档看起来不空,但其实信息价值很低,这种也应该归为无效数据。
常见做法包括规则过滤、关键词黑白名单、正则表达式、长度阈值、语言检测、文本相似度去重,必要时也会用分类模型辅助判断。
import re
def is_valid_text(text):
if not text:
return False
text = text.strip()
if len(text) < 5:
return False
if re.fullmatch(r'[\W_]+', text):
return False
if "广告" in text or "点击领取" in text:
return False
return True
samples = ["", " ", "%%%%", "今天天气不错", "点击领取优惠券"]
valid_samples = [x for x in
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.
查看18道真题和解析