北京深睿博联科技有限责任公司一面

算法实习生

2026.01.19,下午15:00,一面,线上,30多min,都开摄像头了

1.自我介绍

2.你本科是计算机科(CS)吗?为什么本科经历都在 AI 方面(有视觉、自然语言等),保研却去了网安?

本科是计算机相关专业,保研时联系研系导师太晚,北邮的计算机学院和 AI 学院名额已无,被迫选择网安方向,研究生阶段做 AIGC 文本检测相关工作。

3.AIGC 文本检测具体是做什么检测方向?

输入一段文本,检测这段文本是 AI 生成的概率。

4.自然语言数据查询分析系统的目标是什么?

满足客户需求,支持上传 Excel 或 CSV 表格类文件,实现自动数据查询与分析,比如计算特定时间段的总金额、平均值等。

5.在这个数据查询分析系统项目中,你是怎么做的?

用Qwen3的 30B 参数 coder 模型,让模型内部写分析代码并输出可视化结果;用 Pandas 库读取文件转化为 dataframe 格式,提取指定范围数据;将用户问题分为数值计算类(模型生成 Python 代码处理)和分析类(模型直接输出语言内容)。

6.数值计算类问题有考虑过准确性问题吗?

无测评数据集,自行人工评测,准确率约 90% 以上。

7.对于数值计算不准确的情况,是怎么处理的?

继续调整模型内部参数及规定条件,优化代码生成逻辑。

8.数值计算结果用户无法直观判断对错,该系统如何使用?

当时仅需完成产品开发交付,未针对该问题做特殊设计,用户直接使用。

9.Qwen3 的 coder 模型生成的代码有出现过不能运行的情况吗?

没有,用户问题多是简单的数值计算(如总和、平均值),模型足够强大,未出现代码无法运行的情况。

10.你是否微调过 Qwen3 的 coder 模型?

没有,直接使用模型的原始能力。

11.该数据查询分析系统交付给用户后,有什么评价反馈吗?

不清楚,做完后交给主管,由主管与客户沟通反馈。

12.这个数据查询分析系统是你全权负责的吗?

是,公司规模小,研发部门 30 来人,接客户需求后通常一人负责一个项目。

13.系统部署时使用的推理框架是什么?

MindIE。

14.***的 RAG 系统是你实习时做的吗?目的是什么?你具体做了什么?

目的是处理机场保密数据,本地化开发 RAG 系统,支持图像、文本、语音输入,自动查询航班相关信息(如航站楼位置、航班时间);选用 Qwen2.5-VL-32B 模型处理图片 OCR,用浏览器自带的 webspeech API 实现语音转文本,使用 Qwen3-Embedding-8B 作为文本嵌入模型、Qwen3-Reranker-8B 作为重排模型,采用关键词检索 + 语义检索的混合检索方式,知识库由机场提供并量化后通过 Postgresql 的 pgvector 插件存储。

15.语音输入是怎么转化成文本的?是否需要后端处理?

借助浏览器自带的 webspeech API 直接转化为文本,无需后端处理。

16.长沙黄花机场 RAG 系统的检索是怎么做的?

采用混合检索,关键词检索用于准确定位航站楼编号等问题,语义检索用于理解用户普通问题。

17.长沙黄花机场 RAG 系统的知识库是怎么得来的?

机场提供。

18.你使用 llama factory 做微调相关任务时,具体做了什么?

在 910B3 服务器上部署 llama factory,用 lora 微调、SFT 和 freeze(冻结模型最后两层,其余层不变)方式进行简单微调,生成技术文档供客户参考使用。

19.freeze 微调是什么意思?有什么效果?

freeze 指冻结模型最后两层,其余层参数不变;效果不显著,仅保留少量参数自由度。

20.你使用的 Qwen3-8B 是 Qwen 的混合推理模型还是 Instruct?

Instruct。

21.为什么选择 Qwen3-8B 模型,而不考虑其他 Qwen3 模型或开源模型?

Qwen3是Qwen系列较新的模型,8B 参数量小,微调耗时短,未尝试其他开源模型。

22.Lora 和 Full fine-tuning(全量微调)的区别是什么?

Full fine-tuning 是全量微调,通过数据调整模型所有层参数;Lora 微调引入两个低秩矩阵,仅调整这两个矩阵的参数,其他参数不变。

23.使用 Lora 时,是把 Lora 加在模型的哪一层?Q、K、V 都加了吗?全连接层有没有动?

加在注意力层,Q、K、V 都加了,全连接层未动。

24.Lora 是自己写的还是使用现成的?

使用 llama factory 自带的 Lora 微调的 yaml 文件。

25.若 Q 矩阵是 D×D 的投影矩阵,Lora 的两个低秩矩阵的形状是什么样的?

D×rank 和 rank×D,两者相乘后为 D×D 矩阵。

26.使用 Lora 时,rank(R)是怎么选择的?

设置为 8,因为一般 Lora 微调时 rank 常用 8。

27.Lora 中 rank 代表什么?

低秩矩阵的维度。

28.你对比过 Lora 和 Full fine-tuning 的性能差别吗?

对比过,Lora 微调效果比 Full fine-tuning 稍好,可能是 Full fine-tuning 训练时过拟合导致。

29.为什么 Lora 在该场景下表现比 Full fine-tuning 好?从机器学习或数学的角度说。

推测是数据集问题,Full fine-tuning 训练时过拟合,而 Lora 微调未过拟合,不清楚机器学习原理上的具体原因。(当时不太清楚怎么回答)

30.一般来说,什么样的模型在小数据量下更容易过拟合?

(当时完全说错了)

31.能简单说一下 decoder only、encoder only 以及原始 transformer

transformer 是 encoder-decoder 架构;encoder 是输入经过 embedding 层转换为 token,添加位置编码后传入多头自注意力机制层,计算后拼接输入给线性层;decoder 是输入经过 embedding 转换为 token 并添加位置编码,传入带掩码的多头自注意力机制(掩码将未来位置 token 设为无穷大,使模型仅关注已生成 token),再经过 Add&Norm、多头交叉注意力机制、线性层;decoder only 模型基于 decoder 架构,encoder only 模型基于 encoder 架构。

32.Python 中浅拷贝和深拷贝的区别是什么?

(这个八股当时没看,寄)

33.你有 Python 数据并行计算的相关经验吗?

没有。(寄寄)

34.公司的代码管理是用 GitHub 吗?

公司目前没有代码管理工具,代码版本维护靠自己本地处理。(当时面试官露出很震惊的表情,并感叹那怎么进行维护)

35.如果你能来实习,可到岗时间是什么时候?目前所在地在哪?能实习多长时间?每周实习几天?

无手撕

反问:我这个岗位主要是做什么的?

主要是做医学多模态大模型的,专注于通用医学领域能力,可处理 X 光、CT、MRI、超声等多种模态的医学图像,以及传统文本 QA、诊断相关任务,力求在医学问题处理上专业且无非专业性错误,目前正与深圳、香港相关方合作,团队负责模型的联合训练及多模态能力相关工作。

数据方面:对数据进行清洗、去重等常规处理;利用大模型在真实数据基础上做数据合成与增强,生成虚拟数据。

模型训练:设计多阶段训练流程,涵盖预训练、对齐、SFT等。

感受:当时前面回答的很顺,但到后面还是被面试官拷打显露原形了,只能继续沉淀了

全部评论
加油加油,我也刚被拷打完没招了
点赞 回复 分享
发布于 今天 16:28 山东
所以面对“为什么选这个模型?”这种问题,到底该怎么回答才能显得有思考深度?求经验分享!
点赞 回复 分享
发布于 今天 16:22 上海
感谢牛友的经验贴!我也要准备面试了紧张
点赞 回复 分享
发布于 今天 16:21 北京

相关推荐

评论
2
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务