字节大模型Agent算法一面

1.CV和NLP的区别与联系
2.在Transformer框架下,CV、NLP、语音是否可能统一?
3.大模型训练数据清洗、处理、配比的方法
4.大模型训练如何更容易提升模型性能
5.Encoder与decoder的中Attention区别?
6.Attention如何计算?为什么除以根号下Dk?mask attention是如何实现的?
7.讲GQA、MQA、MLA原理。
8.为什么要用位置编码?为什么要用sin_cos?
9.问之前实习的Agent的设计逻辑,问创新方法的实现。
10.你提到用DeepSpeed做SFT训练,请讲一下DeepSpeedZeROStage1-3的区别,以及什么时候
用FSDP会更好?
11.什么是大模型的幻觉,如何缓解
12.为什么会有复读问题,业内有哪些解决办法
13.大模型工具调用的实现方式
14.Agent的组成部分及实现方法
15.问Agent的工具tool的设计,是否是workflow形式。
16.了解哪些agent开发框架,例如langchain和Llamalndex,核心应用场景有何不同?
17.问数据的输入输出格式如何保证大模型输出稳定的json做了哪些工作?
18.开放题:你在大模型训练中遇到过的困难,如何解决?
19.代码题:实现一个Tokenizer
全部评论

相关推荐

01-30 09:45
燕山大学 Java
喵_coding:这种直接跑就完事了 哪有毕业了才签合同 任何offer和三方都没有的
点赞 评论 收藏
分享
评论
2
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务