阿里秋招大模型算法一面55min

1.项目介绍
2.用的什么模型?介绍一下?
3.了解其他的多模态大模型吗?介绍一下?
4.介绍-下transformer的结构?
5.介绍-下multihead-attention?
6. multihead-attention为什么要切分?为什么要做成
多头的?
7.你觉得多头注意力能提高计算效率吗?结合公式推导一下?(矩阵计算)
8.不能提高计算效率,详细讲讲为什么?
9.multihead-attention现在有一些优化,现在主流的优化都有哪些方向,每个方向下有什么优化方法?
10.为什么你们用xx模型?算力多少?数据量多少?
11.介绍-下deepspeed的关键配置参数,及其含义?
12.介绍一下vm的训练阶段有哪些?训练阶段的任务是什么?
13.你提到了正负样本不均衡,你觉得正负样本不平衡对模型性能有什么影响吗?有什么方法缓解?
14.acc、precision、f1-score指标概念,样本不均衡对指标的影响?
全部评论
点赞 回复 分享
发布于 2025-11-24 17:13 云南

相关推荐

01-30 22:03
门头沟学院 Java
用微笑面对困难:我滴妈,【俩月】【实习】【主管】仨debuff吃满了,独立设计开发的项目写了绝大占比的运营板块,你独立开发,那维护、问题复盘、日志更新、bug、策划书全是自己整的? 不建议写那么大,可以从小出发更容易
点赞 评论 收藏
分享
评论
1
8
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务