吉利科技 大模型应用开发 二面
感觉面试官自己也不是很熟 没怎么招过
1. 你挑一个最熟悉的项目详细讲一下,重点说业务背景、数据形态和你负责的部分
2. 如果大模型输出格式和你预期不一致,你一般怎么处理
这个问题如果只回答“加强 prompt 约束”会显得太浅。真实场景里,输出格式不一致通常有三层原因:第一层是模型没理解任务边界,第二层是格式本身太脆弱,第三层是生成阶段没有约束。我的做法一般是先把格式要求拆成字段级约束,尽量避免开放式自然语言和结构化字段混在一起;然后再根据场景决定是用 schema 校验、函数调用、受限解码,还是生成后重排修复。
如果业务要求严格,比如必须产出合法 JSON,我不会只依赖 prompt。我会让模型先输出语义内容,再走一层格式化模块,或者直接做 constrained decoding,把非法 token 路径裁掉。生成模型擅长表达,不擅长守规矩,所以格式一致性最好靠系统兜底,而不是全靠模型自觉。
import json
def safe_parse(text):
try:
data = json.loads(text)
assert "label" in data and "score" in data
return data
except Exception:
return {"label": None, "score": None, "raw": text}
3.围绕简历上的项目继续深挖
4. 车照片多标签分类里,可能有哪些干扰因素
这类题不适合答得太散,我一般会从图像质量、场景复杂度和标签歧义三个维度讲。图像质量层面最典型的是逆光、夜间拍摄、反光、运动模糊、压缩失真;场景复杂度层面会有遮挡、拍摄角度极端、背景中出现其他车辆、维修贴纸或污渍干扰;标签歧义层面则是不同损伤在视觉上很像,比如凹陷和阴影、划痕和污迹、裂纹和高光边缘。
真正难的是这些干扰不是独立出现的,往往会叠加。比如一个低清夜间照片里,既有强反光又有部分遮挡,这时候模型分数不一定特别低,但会非常不稳定。项目里通常不能只靠数据增强硬扛,还得补拍摄规范、低质图过滤和不确定样本回流机制。
5. 多标签分类和普通多分类相比,训练目标上最大的区别是什么
多分类默认类别互斥,所以一般用 softmax;多标签则允许多个标签同时成立,通常会转成多个二分类问题,用 sigmoid 做独立概率建模。但这只是最表层的区别,真正难的是多标签任务里类别分布极不均衡,而且标签之间并不独立。你如果完全按独立 Bernoulli 去学,模型会倾向于把高频标签学得很好,低频但关键的标签长期召不回来。
所以多标签任务里,我会更在意损失函数是不是考虑了正负样本不均衡、标签共现有没有利用、以及阈值是不是按类单独调过。很多项目离线 mAP 看起来还行,但线上业务投诉多,就是因为所有类别共用一个阈值,导致一些高风险低频标签基本打不出来。
import torch
import torch.nn.functional as F
def multilabel_loss(logits, targets, pos_weight=None):
return F.binary_cross_entropy_with_logits(
logits, targets.float(), pos_weight=pos_weight
)
6. 多标签场景里,阈值为什么很关键,怎么调才更像工程解法
很多人训练完直接拿 0.5 当阈值,这在真实项目里通常不太行。因为不同标签的先验分布、可分性、业务风险都不一样。比如“严重结构损伤”这种标签,一旦漏掉代价很高,就不应该跟“轻微表面污损”用同一套阈值。工程上我一般会按类调阈值,甚至按业务阶段调阈值,比如初筛阶段追求高召回,复核阶段再提高精度。
如果进一步细做,还可以把阈值和样本质量挂钩。比如图像清晰度低时适当提高某些易误报标签的阈值,或者把低置信度样本自动打回复核队列。模型分数本身不是决策,阈值设计
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

查看4道真题和解析