百度 大模型开发 一面

1、自我介绍

2、项目介绍

3、介绍 NLP 中数据增强方式

NLP 中常见的数据增强方式主要有同义词替换、随机插入、随机删除、随机交换、回译、模板扩写、噪声注入、对抗样本增强和基于大模型的数据改写。同义词替换是把句子中的部分词替换成语义相近的词;随机插入和删除适合做轻量扰动;随机交换适合增强模型对局部顺序变化的鲁棒性;回译是把句子翻译成另一种语言再翻回来,能够保留大意但改变表述;模板扩写适合分类和信息抽取任务;噪声注入比如加入错别字、空格、标点变化,适合提升鲁棒性;对抗样本增强更偏训练阶段优化;现在更常见的是让大模型做改写、扩写、同义表达生成。

数据增强不能只追求数量,更重要的是标签一致性和语义不偏移。比如情感分类里,同义改写后情感标签不能变;命名实体识别里,增强不能破坏实体边界;问答任务里,问题改写后答案仍然要对应原文。

一个简单的同义词替换示例如下:

import random

def synonym_replace(text, synonym_dict, replace_prob=0.3):
    words = text.split()
    new_words = []
    for w in words:
        if w in synonym_dict and random.random() < replace_prob:
            new_words.append(random.choice(synonym_dict[w]))
        else:
            new_words.append(w)
    return "".join(new_words)

synonym_dict = {
    "喜欢": ["喜爱", "热爱"],
    "学习": ["研究", "钻研"]
}

text = "我喜欢学习大模型"
print(synonym_replace(text, synonym_dict))

4、大模型如何进行预训练,如何进行微调

大模型预训练本质上是在海量无监督文本上做自监督学习,让模型学到语言规律、知识表示和上下文建模能力。对于 decoder-only 架构,最常见的目标是 next token prediction,也就是给定前面的 token,预测下一个 token。训练时会把大规模语料分词后送入模型,通过自注意力机制建模上下文,再用交叉熵损失优化预测结果。

预训练阶段的数据规模通常非常大,可能是百亿、千亿甚至更高数量级 token。预训练完成后,模型具备通用语言能力,但不一定适合具体任务,所以需要微调。

微调一般分为监督微调和参数高效微调。监督微调就是用指令数据、问答数据、任务数据让模型学会按要求输出;参数高效微调典型方法是 LoRA、QLoRA,只更新少量参数,不更新全部模型权重,这样显存和训练成本更低。如果是业务场景,通常流程是先做 SFT,再结合具体需求做偏好对齐或者规则约束。

训练里常见参数包括 learning rate、batch size、epoch、warmup ratio、max length。学习率通常比预训练阶段低,SFT 常见在 (1e^{-5}) 到 (5e^{-5}) 之间;epoch 通常 2 到 5 轮;batch size 取决于显存;长文本任务还要注意 sequence length 和梯度累积。

5、什么是 RAG

RAG 是 Retrieval-Augmented Generation,也就是检索增强生成。它的核心思想是:先从外部知识库检索相关内容,再把检索结果和用户问题一起输入给大模型,让模型基于检索到的证据生成答案。

RAG 的主要优势有三个。第一,不需要频繁重新训练模型就能更新知识;第二,可以接入企业私有数据;第三,可以减少模型幻觉,提高答案可追溯性。一个完整的 RAG 流程通常包括文档解析、文本切分、向量化、索引构建、召回、重排、Prompt 组织和生成。

常见问题主要出现在三处。第一是 chunk 切分不合理,导致信息断裂或者召回噪声太大;第二是 embedding 模型不匹配,导致召回结果不准;第三是生成阶段约束不够,模型脱离检索内容自由发挥。

一个简化版 RAG 流程代码如下:

documents = [
    "机票报销需要行程单和发票",
    "酒店报销需要发票和入住明细",
    "火车票可以直接作为报销凭证"
]

def retrieve(query, docs):
    result = []
    for doc in docs:
        score = sum(1 for word in query if word in doc)
        result.append((score, doc))
    result.sort(reverse=True)
    return [x[1] for x in result[:2]]

query = "机票报销需要什么材料"
top_docs = retrieve(query, documents)
prompt = f"问题:{query}\n参考资料:{top_docs}\n请基于参考资料回答。"
print(prompt)

6、LoRA 和 QLoRA 是什么

LoRA 是一种参数高效微调方法。它的核心思想不是直接更新原始大模型的完整权重矩阵,而是在某些线性层旁边增加两个低秩矩阵 (A) 和 (B),把权重更新写成低秩分解形式:

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

1.&nbsp;请做个自我介绍,包括你的个人背景、大学经历或实习经历。1.1.&nbsp;在你的学习和实践中,AI大模型工具是如何发挥作用的?是否帮助你解决过具体问题,或提升了某些项目的效率?2.&nbsp;请你谈谈IPv4与IPv6的区别与过渡策略。2.1&nbsp;实际过渡过程中,IPv4和IPv6之间互通的关键问题,有哪些技术手段可以实现互通?3.&nbsp;请你解释一下Java中的垃圾回收机制GC以及常见的垃圾收集器有哪些?3.1&nbsp;结合实际开发场景,解释在什么情况下你会选择使用G1垃圾收集器,而不是CMS或其他收集器?3.2.&nbsp;G1垃圾收集器是如何优化停顿时间的?它在设计上有哪些特点,使其适合大内存应用?4.&nbsp;请你谈谈分库分表的常见策略及其在并发场景下的应用。4.1.&nbsp;在高并发场景下,如何选择合适的分库分表策略?具体会考虑哪些因素来决定使用垂直还是水平分库分表?4.2&nbsp;实际应用中,垂直分库和水平分库可能会遇到哪些挑战?你会如何应对这些挑战?5.&nbsp;设计一个简单的项目管理系统,请描述项目、任务、成员的关系及主要的数据库表结构。5.1.&nbsp;在项目管理系统的设计中,如何确保任务的分配和成员的工作负载是合理的?5.2.&nbsp;在这个项目管理系统中,如何处理任务的优先级和紧急情况?6&nbsp;设计一个文本生成HTTP接口供业务方调用,设计请求与返回关键字段,至少包含输入上下文、模型参数、输出结构、错误码以及用于追踪的一次调用ID。该文本生成接口如何支持流式返回?(这道题我换成下面的第六题了)6.&nbsp;做成本控制,把每次调用成本拆到业务维度,后端如何统计token用量、工具调用次数、重试次数,并按业务方场景、模型版本做聚合报表?6.1.&nbsp;在设计存储上述统计信息的数据库表时,如何考虑数据的扩展性和性能问题?第十四题是问答题,可以有换题的机会。我以为前面也有换题的机会,结果没有😭,对于IPv4和IPv6的过渡策略刚好考到我了,回答不出来还一直追问可能是我回答的时候太长了,应该还有个第七题,可惜错过了,第七题应该会问日常点的问题
查看15道真题和解析
点赞 评论 收藏
分享
作为一名正在摸索入行的&nbsp;AI&nbsp;应用工程师新人,我把近期收集的资料做了一次系统梳理,聚焦岗位核心能力,把从大模型应用开发、模型调优到工程化部署的全链路技术栈拆解开。一方面给自己定一个清晰的学习方向,避免在海量知识点里越学越乱;另一方面也分享给同样在入门的牛友,一起参考、一起进步。一、核心应用技术1.&nbsp;提示工程&nbsp;Prompt&nbsp;Engineering需要熟练掌握角色设定、思维链&nbsp;CoT、零样本&nbsp;/&nbsp;少样本学习、格式约束、抗幻觉等通用技巧;针对&nbsp;GPT-4o、LLaMA&nbsp;3、Qwen、Claude&nbsp;等不同模型做提示词适配,根据问答、摘要、翻译、代码生成等任务做针对性优化。实战上要能搭建可复用的提示词模板库,支持参数化调用和效果评估,解决模型输出不稳定、格式乱、语义跑偏等问题。2.&nbsp;检索增强生成&nbsp;RAGRAG&nbsp;是解决大模型幻觉、落地知识密集型场景的关键,要求能完整搭建一套端到端系统。核心流程包括:文档处理:多格式加载(PDF/Word/TXT/&nbsp;网页)、多种文本切分策略向量工程:嵌入模型选型、向量生成与效率优化检索优化:向量检索、混合检索、重排序,提升召回与准确率生成优化:上下文压缩、查询改写、检索结果融合进阶方向可以了解模块化&nbsp;RAG、GraphRAG、知识库增量更新等方案。3.&nbsp;LLM&nbsp;Agent&nbsp;开发基于&nbsp;LangChain&nbsp;/llamaIndex&nbsp;搭建&nbsp;Agent,掌握任务拆解、工具调用、结果整合、记忆管理的完整流程;能自定义工具(API、数据库、计算器、外部服务等),设计调用逻辑与失败重试机制。实战要求实现多工具协同、长短记忆管理,能处理数据分析&nbsp;+&nbsp;报告生成、多轮复杂问答等场景。二、模型调优与后训练1.&nbsp;监督微调&nbsp;SFT能完整设计&nbsp;SFT&nbsp;流程:数据集构建与清洗、模型选型、学习率等超参调优;熟练使用&nbsp;LoRA&nbsp;/&nbsp;QLoRA&nbsp;轻量化微调,基于&nbsp;PEFT&nbsp;库在普通显卡上完成训练,控制显存和成本。最终要能在分类、对话、意图识别等任务上落地微调,并输出对比评估结果。2.&nbsp;强化学习与偏好对齐了解&nbsp;RLHF、DPO&nbsp;的基本思路,能用&nbsp;TRL&nbsp;等开源库做简单的偏好对齐训练,减少模型幻觉、违规输出,让生成内容更贴合业务规则。3.&nbsp;模型压缩与推理优化掌握&nbsp;INT4/INT8&nbsp;量化、剪枝、知识蒸馏,用&nbsp;BitsAndBytes、GPTQ&nbsp;等工具在可控效果损失下压缩模型;能将模型转为&nbsp;ONNX&nbsp;/&nbsp;TensorRT,支持本地与边缘部署,提升推理速度。三、工具与框架体系语言与基础:Python、Pandas、Numpy&nbsp;数据处理深度学习框架:PyTorch、TensorFlow,Hugging&nbsp;Face&nbsp;全套生态应用开发框架:LangChain、llamaIndexAPI&nbsp;服务:FastAPI、Flask&nbsp;封装接口,对接&nbsp;OpenAI、智谱、通义千问等商用&nbsp;API四、数据存储与检索结构化存储:MySQL/PostgreSQL&nbsp;存用户、配置、日志缓存:Redis&nbsp;做缓存、会话管理、降低重复调用成本搜索引擎:Elasticsearch&nbsp;做关键词检索向量库:FAISS、Milvus&nbsp;搭建向量知识库,支撑高并发&nbsp;RAG&nbsp;检索五、工程化部署与监控Docker&nbsp;容器化打包,docker-compose&nbsp;多组件部署日志与监控:ELK、Prometheus&nbsp;+&nbsp;Grafana&nbsp;监控接口、推理性能、资源占用安全合规:密钥加密、权限控制、数据脱敏,满足企业安全要求六、前沿技术与行业认知持续关注&nbsp;LLaMA&nbsp;3、Qwen、Mistral&nbsp;等开源模型迭代,以及&nbsp;LangChain&nbsp;等工具更新;了解多模态、智能体进化、Modular&nbsp;RAG、知识图谱融合等方向;结合企业服务、智能制造、智能客服等落地案例,学会把技术和业务场景结合,给出可落地方案。
从事AI岗需要掌握哪些技...
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务