阿里云Agent算法一面-秋招面经
一面:
1.八股:Encoder与decoder的中Attention区别?
2.八股:Attention如何计算?为什么除以根号下Dk?mask attention是如何实现的?
3.八股:除了MHA还知道哪些(GQA MQA MLA)讲原理
4.八股:为什么要用位置编码?为什么要用sin_cos?
5.项目:问之前实习的Agent的设计逻辑,问创新方法的实现
6.项目:你提到用DeepSpeed做SFT训练,请讲一下DeepSpeed ZeRO Stage 1-3的区别,以及什么时候用FSDP会更好?
7.项目:问Agent的工具tool的设计,是否是workflow形式
8.项目:了解哪些agent开发框架,例如langchain和LlamaIndex,他们核心应用场景有何不同
9.项目:问数据的输入输出格式如何保证大模型输出稳定的json做了哪些工作
10.智力题:有12个外观相同的芯片、其中一个重量不同(不知轻重),用天平最少称几次能找出这张芯片?
11.代码题:lc215 数组中的第K个最大元素
1.八股:Encoder与decoder的中Attention区别?
2.八股:Attention如何计算?为什么除以根号下Dk?mask attention是如何实现的?
3.八股:除了MHA还知道哪些(GQA MQA MLA)讲原理
4.八股:为什么要用位置编码?为什么要用sin_cos?
5.项目:问之前实习的Agent的设计逻辑,问创新方法的实现
6.项目:你提到用DeepSpeed做SFT训练,请讲一下DeepSpeed ZeRO Stage 1-3的区别,以及什么时候用FSDP会更好?
7.项目:问Agent的工具tool的设计,是否是workflow形式
8.项目:了解哪些agent开发框架,例如langchain和LlamaIndex,他们核心应用场景有何不同
9.项目:问数据的输入输出格式如何保证大模型输出稳定的json做了哪些工作
10.智力题:有12个外观相同的芯片、其中一个重量不同(不知轻重),用天平最少称几次能找出这张芯片?
11.代码题:lc215 数组中的第K个最大元素
全部评论
相关推荐
昨天 10:52
门头沟学院 广告设计 Borderline:本来是拒绝的,但小队长太有趣、太迷人、太可爱了,沉迷于她的魅力中无法自拔地加入了创作者社群。成熟又亲切,工作能力强的同时通情达理,这样的女人谁不喜欢呢?运营界最高的山,最长的河,最美的北京热巴分巴


点赞 评论 收藏
分享
12-12 16:26
西南科技大学 数据挖掘 点赞 评论 收藏
分享