【25暑期实习】Soul大模型一面

面试时长40分钟
自由交流15分钟
面试官小姐姐超超超超温柔

1. 自我介绍
2. 问大模型实习项目,做了什么,用了什么开源模型,主要是chatglm和llama
3. 有没有尝试过改原模型的设计,比如结构或者loss函数?为什么不?
3. 说一下chatglm或llama与传统transformer结构的区别,有哪些改动,和可以借鉴的地方?主要从模型结构、layer norm、激活方式、位置编码回答
4. 在实际训练或微调的过程中遇到了哪些问题,是怎么解决的?主要讨论了下精度问题、梯度爆炸、loss出现nan
5. 说说bf16、fp16、fp32的区别
6. 简单讲了下deepspeed
7. 微调的话用了哪些方法?讲主要是lora
8. 追问了下我们用lora调哪些参数?不同参数怎么选?什么影响?
……想不起来了一部分
7. 代码实现transformer原来的sinusoidal位置编码

团队介绍
主要做的产品是Soul X系列
目前算法组将近100个人,其中NLP组不到20个人,目前主要工作在Role Play方向,AI狼人杀也在其中。国内海外都有相关产品,业务赚钱为主,发专利为辅,有发专利的Okr,没发过论文,但有往技术自研转型的趋势。
资源方面的话H800,不到100张。
全部评论
请问soul算中厂嘛?今天刚面完
1 回复 分享
发布于 2024-04-07 21:13 北京
请问你是怎么遇到这么多温柔的面试官的
1 回复 分享
发布于 2024-04-07 14:59 北京
佬,从投简历到一面几天啊
点赞 回复 分享
发布于 2024-04-25 16:35 江苏
补充:位置编码PE输入的tensor shape是怎样的?
点赞 回复 分享
发布于 2024-04-07 12:23 北京

相关推荐

我面的是Golang后端,结果上来基本上不问后端问题,全问的是AI方向的,也不问简历,什么Go协程,并发,GMP调度和大部分是数据结构底层八股全部都不问,还有后台常考的Mysql,Redis和MQ也不问。问了大模型落地训练微调量化,还有FunctionCalling,MCP,龙虾Skill。出了两个简单的计算题有一个结果还出错了,我推导半天结果有问题,最后拿编译器穷举发现根本没结果。最后问为什么不问后端题目而是问AI方向的,回答是因为我简历里面的项目全是保密项目,技术难点不可能达不到真实业务高并发需求,所有的实现都是基于标书的,所以问了等于没问,索性就不问了。面完之后感觉人都麻了,感觉就是不想面,还不如直接说出来拒接,浪费双方的时间。题目:abc+cba=1331,求解a+b+c=?我的解法是:100a+10b+c+100c+10b+a=1331101a+20b+101c=1331101(a+c)=1331-20b令a+c=x∈0-18,b=y∈0-9101x=1331-20y右边y的系数是20,所以不管怎么减右边个位数都是1,那么左边101只能乘个位数为1的数也就是x要么是1要么是11,但是1和11的时候y都不满足条件0-9然后我人麻木了陷入了怀疑,就拿编译器用穷举(三重for循环实现)package mainimport "fmt"func main() {for a := 0; a < 10; a++ {for b := 0; b < 10; b++ {for c := 0; c < 10; c++ {if 101*(a+c)+20*b == 1331 {fmt.Println(a + b + c)fmt.Printf("a: %d, b: %d, c: %d\n", a, b, c)}}}}}最后结果也是没有输出,最后面试官才反应过来是1131算了半天结果是题目有问题
查看6道真题和解析
点赞 评论 收藏
分享
评论
5
33
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务