吉利科技大模型应用开发二面

感觉面试官自己也不是很熟没怎么招过

1. 你挑一个最熟悉的项目详细讲一下，重点说业务背景、数据形态和你负责的部分

2. 如果大模型输出格式和你预期不一致，你一般怎么处理

这个问题如果只回答“加强 prompt 约束”会显得太浅。真实场景里，输出格式不一致通常有三层原因：第一层是模型没理解任务边界，第二层是格式本身太脆弱，第三层是生成阶段没有约束。我的做法一般是先把格式要求拆成字段级约束，尽量避免开放式自然语言和结构化字段混在一起；然后再根据场景决定是用 schema 校验、函数调用、受限解码，还是生成后重排修复。

如果业务要求严格，比如必须产出合法 JSON，我不会只依赖 prompt。我会让模型先输出语义内容，再走一层格式化模块，或者直接做 constrained decoding，把非法 token 路径裁掉。生成模型擅长表达，不擅长守规矩，所以格式一致性最好靠系统兜底，而不是全靠模型自觉。

import json

def safe_parse(text):
    try:
        data = json.loads(text)
        assert "label" in data and "score" in data
        return data
    except Exception:
        return {"label": None, "score": None, "raw": text}

3.围绕简历上的项目继续深挖

4. 车照片多标签分类里，可能有哪些干扰因素

这类题不适合答得太散，我一般会从图像质量、场景复杂度和标签歧义三个维度讲。图像质量层面最典型的是逆光、夜间拍摄、反光、运动模糊、压缩失真；场景复杂度层面会有遮挡、拍摄角度极端、背景中出现其他车辆、维修贴纸或污渍干扰；标签歧义层面则是不同损伤在视觉上很像，比如凹陷和阴影、划痕和污迹、裂纹和高光边缘。

真正难的是这些干扰不是独立出现的，往往会叠加。比如一个低清夜间照片里，既有强反光又有部分遮挡，这时候模型分数不一定特别低，但会非常不稳定。项目里通常不能只靠数据增强硬扛，还得补拍摄规范、低质图过滤和不确定样本回流机制。

5. 多标签分类和普通多分类相比，训练目标上最大的区别是什么

多分类默认类别互斥，所以一般用 softmax；多标签则允许多个标签同时成立，通常会转成多个二分类问题，用 sigmoid 做独立概率建模。但这只是最表层的区别，真正难的是多标签任务里类别分布极不均衡，而且标签之间并不独立。你如果完全按独立 Bernoulli 去学，模型会倾向于把高频标签学得很好，低频但关键的标签长期召不回来。

所以多标签任务里，我会更在意损失函数是不是考虑了正负样本不均衡、标签共现有没有利用、以及阈值是不是按类单独调过。很多项目离线 mAP 看起来还行，但线上业务投诉多，就是因为所有类别共用一个阈值，导致一些高风险低频标签基本打不出来。

import torch
import torch.nn.functional as F

def multilabel_loss(logits, targets, pos_weight=None):
    return F.binary_cross_entropy_with_logits(
        logits, targets.float(), pos_weight=pos_weight
    )