1.CV和NLP的区别与联系2.在Transformer框架下,CV、NLP、语音是否可能统一?3.大模型训练数据清洗、处理、配比的方法4.大模型训练如何更容易提升模型性能5.Encoder与decoder的中Attention区别?6.Attention如何计算?为什么除以根号下Dk?mask attention是如何实现的?7.讲GQA、MQA、MLA原理。8.为什么要用位置编码?为什么要用sin_cos?9.问之前实习的Agent的设计逻辑,问创新方法的实现。10.你提到用DeepSpeed做SFT训练,请讲一下DeepSpeedZeROStage1-3的区别,以及什么时候用FSDP会更好?11.什么是大模型的幻觉,如何缓解12.为什么会有复读问题,业内有哪些解决办法13.大模型工具调用的实现方式14.Agent的组成部分及实现方法15.问Agent的工具tool的设计,是否是workflow形式。16.了解哪些agent开发框架,例如langchain和Llamalndex,核心应用场景有何不同?17.问数据的输入输出格式如何保证大模型输出稳定的json做了哪些工作?18.开放题:你在大模型训练中遇到过的困难,如何解决?19.代码题:实现一个Tokenizer