字节搜推大模型实习面经 攒人品
1.主流的开源大模型结构有哪些?
2.介绍一下layernorm和batchnorm的区别?
3.在机器学习里,怎么处理长尾数据和多峰数据?
4.怎么解决模型的冷启动问题,你觉得LLM在冷启动方面能够起到什么作用?
5.介绍一下常见的优化算法优缺点
6.为什么Adam不一定最优而SGD最优的?怎么理解分析?
7.你工作里的对比损失是怎么构造的,有什么作用?介绍常见的对比损失的公式。
代码题:
数组第K大。给定整数数组 nums 和整数 k,请返回数组中第 k 个最大的元素。
2.介绍一下layernorm和batchnorm的区别?
3.在机器学习里,怎么处理长尾数据和多峰数据?
4.怎么解决模型的冷启动问题,你觉得LLM在冷启动方面能够起到什么作用?
5.介绍一下常见的优化算法优缺点
6.为什么Adam不一定最优而SGD最优的?怎么理解分析?
7.你工作里的对比损失是怎么构造的,有什么作用?介绍常见的对比损失的公式。
代码题:
数组第K大。给定整数数组 nums 和整数 k,请返回数组中第 k 个最大的元素。
全部评论
手撕这个太经典了
相关推荐
点赞 评论 收藏
分享
查看4道真题和解析 点赞 评论 收藏
分享