商汤科技 大模型开发 一面

1、自我介绍

2、通俗讲一下大模型从训练到落地到评测的全过程

可以把大模型看成一个先大量学习、再针对任务训练、最后真正上岗工作的系统。

第一步是预训练。这个阶段会给模型非常大量的文本,让它去做“根据前文预测下一个词”这样的任务。比如给它一句“今天天气很”,它要预测下一个字可能是“好”还是“热”。这个过程做得足够大以后,模型就会学到语言规律、常识知识、一些推理模式和表达能力。

第二步是微调或者对齐。预训练出来的模型虽然懂很多东西,但不一定会按人的要求回答,所以还要进一步训练。比如给它大量“问题-答案”数据,让它学会更像助手一样回复,这就是 SFT。有些场景还会继续做人类偏好对齐,比如让模型学会什么回答更好、什么回答应该拒绝。

第三步是评测。模型训练完不能直接上线,要先测。评测会看很多方面,比如问答是否正确、是否稳定、是否会胡编、是否遵守格式要求、响应速度怎么样、成本是否可控。如果是业务场景,还要用真实业务数据去测,不是只看公开榜单。

第四步是落地。真正上线时,往往不是一个裸模型直接对用户说话,而是会加很多系统能力,比如知识库检索、工具调用、日志监控、限流、缓存、结果兜底、敏感内容过滤。也就是说,真正落地的是一个完整系统,不只是一个模型。

3、GPT 和豆包这种模型是怎么训练出来的

这类模型的底层路线大体是类似的,都是先做大规模预训练,再做指令微调和对齐。

预训练阶段会准备海量文本数据,比如网页、书籍、代码、问答、百科等,然后做清洗、去重、过滤,把低质量和脏数据尽量剔除。接着用 Transformer 架构训练,让模型根据前面的 token 预测后面的 token。模型会在这个阶段获得最基础也是最核心的语言能力。

然后是指令微调阶段,会给模型喂很多 instruction-response 数据,比如“帮我写个摘要”“解释一下某个概念”“把下面内容翻译成英文”,让模型学会按照人类指令输出。这个阶段更多解决的是“模型听不听话”。

再往后通常还会做对齐,让模型回答得更自然、更安全、更符合人类偏好。比较常见的是 RLHF 或者 DPO。RLHF 一般包括奖励模型和强化学习过程,DPO 相对更简单,直接基于偏好数据优化。

最后还会做部署优化,比如量化、推理加速、KV Cache 管理、并发调度、长上下文优化等,这样模型才能真正在线服务。

4、Python 的熟悉程度怎么样

5、数据清洗里,过滤无效数据一般怎么做

数据清洗的目标是让进入训练、评测或者知识库的数据尽量有效、稳定、可用。无效数据过滤通常会从几个层面做。

先是格式层面,比如空值、乱码、字段缺失、编码异常、重复样本、超短文本、纯符号文本、HTML 垃圾内容、表格残片这些,通常直接过滤。再是内容层面,比如广告、模板化灌水、和任务无关的数据、低信息密度文本,也会剔除。对于问答数据,还会检查问题和答案是否匹配,答案是不是过短、过泛或者完全答非所问。

如果是训练数据,还会做去重和近重复过滤,因为重复太多会影响训练分布。对于知识库数据,还会关注时效性、来源可信度和字段规范性。很多业务文档看起来不空,但其实信息价值很低,这种也应该归为无效数据。

常见做法包括规则过滤、关键词黑白名单、正则表达式、长度阈值、语言检测、文本相似度去重,必要时也会用分类模型辅助判断。

import re

def is_valid_text(text):
    if not text:
        return False
    text = text.strip()
    if len(text) < 5:
        return False
    if re.fullmatch(r'[\W_]+', text):
        return False
    if "广告" in text or "点击领取" in text:
        return False
    return True

samples = ["", "   ", "%%%%", "今天天气不错", "点击领取优惠券"]
valid_samples = [x for x in

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

03-14 21:33
已编辑
东莞理工学院 Java
📍面试公司:好未来🕐面试时间:03/14💻面试岗位:golang后端开发❓面试问题:1.&nbsp;Go&nbsp;的基本数据类型有哪些?2.&nbsp;什么是值类型和引用类型,分别有哪些?3.&nbsp;slice&nbsp;底层结构和扩容机制是什么?4.&nbsp;map&nbsp;底层基于什么实现,是有序还是无序?5.&nbsp;对&nbsp;Go&nbsp;的&nbsp;channel&nbsp;怎么理解?6.&nbsp;channel&nbsp;一般用在什么业务场景?7.&nbsp;无缓冲和有缓冲&nbsp;channel&nbsp;的区别是什么?8.&nbsp;如何深拷贝&nbsp;slice,避免多个变量互相影响?9.&nbsp;Redis&nbsp;适用哪些业务场景?10.&nbsp;为什么&nbsp;Redis&nbsp;单线程还能支持高并发?11.&nbsp;epoll&nbsp;在&nbsp;Redis&nbsp;中用在什么场景?12.&nbsp;Redis&nbsp;的&nbsp;key&nbsp;过期策略有哪些?13.&nbsp;Redis&nbsp;过期删除后内存会立刻释放吗?14.&nbsp;Redis&nbsp;内存满了有哪些淘汰策略?15.&nbsp;Redis&nbsp;持久化方案有哪些?16.&nbsp;RDB&nbsp;和&nbsp;AOF&nbsp;区别是什么?17.&nbsp;Redis&nbsp;高可用方案有了解吗?18.&nbsp;Redis&nbsp;主从、哨兵、集群的区别?19.&nbsp;ES&nbsp;主要适用于什么场景?20.&nbsp;业务数据(如订单)能不能存在&nbsp;ES?21.&nbsp;多表数据聚合同步到&nbsp;ES&nbsp;怎么实现?22.&nbsp;ES&nbsp;集群健康状态有哪几种,分别代表什么?23.&nbsp;ES&nbsp;设置分片和副本,允许节点宕机数量怎么判断?24.&nbsp;Kafka&nbsp;和&nbsp;RocketMQ&nbsp;的区别是什么?25.&nbsp;Kafka&nbsp;为什么会出现消息丢失?26.&nbsp;如何避免&nbsp;Kafka&nbsp;消息丢失?27.&nbsp;Kafka&nbsp;的&nbsp;at&nbsp;least&nbsp;once&nbsp;机制是什么?28.&nbsp;业务层如何保证消息不丢失、最终一致?29.&nbsp;MySQL&nbsp;事务隔离级别有哪些?30.&nbsp;MySQL&nbsp;默认隔离级别是什么?31.&nbsp;可重复读的含义是什么?32.&nbsp;什么场景会使用不同的事务隔离级别?33.&nbsp;InnoDB&nbsp;可重复读是怎么实现的?34.&nbsp;MySQL&nbsp;有哪些存储引擎,区别是什么?35.&nbsp;MyISAM&nbsp;适用什么业务场景?36.&nbsp;联合索引的最左匹配原则是什么?37.&nbsp;MySQL&nbsp;默认索引类型是什么,和哈希索引区别?38.&nbsp;多表关联查询、聚合查询如何设计索引?39.&nbsp;研发工程师应该如何应对和使用&nbsp;AI?40.&nbsp;使用&nbsp;AI&nbsp;编程工具有哪些风险?41.&nbsp;怎么避免&nbsp;AI&nbsp;生成代码带来的线上问题?42.&nbsp;平时用什么开发工具和&nbsp;AI&nbsp;模型?43.&nbsp;使用&nbsp;AI&nbsp;辅助开发遇到过哪些问题,怎么解决?44.手撕sql包括建立索引等等🙌面试感想:感动坏了,春招以来最舒服的一场面试,大部分问题都回答出来了,并且面试官在你回答出来了之后,还会给予正反馈说没错,你说的对,然后记不太清楚的问题,他还会给予提示,然后告诉你该怎么去回答,并且给出他的看法,也是一天直接速通了两面下周三约HR面
发面经攒人品
点赞 评论 收藏
分享
03-15 17:01
门头沟学院 Java
程序员大奋:不好意思,打扰大家🙏我是一个拼多多骑手,小电驴的最大电量为C😭😭😭需要从x=0处走到x=L处,途中有n个充电站,🙏🙏每个充电站的距离和电价分别为di和pi,初始电量是满的😭😭😭请告诉我到达终点最少要花多少钱😭😭😭求求大家把这些钱转给我
拼多多集团-PDD笔试
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务