【25暑期实习】Soul大模型一面

面试时长40分钟
自由交流15分钟
面试官小姐姐超超超超温柔

1. 自我介绍
2. 问大模型实习项目,做了什么,用了什么开源模型,主要是chatglm和llama
3. 有没有尝试过改原模型的设计,比如结构或者loss函数?为什么不?
3. 说一下chatglm或llama与传统transformer结构的区别,有哪些改动,和可以借鉴的地方?主要从模型结构、layer norm、激活方式、位置编码回答
4. 在实际训练或微调的过程中遇到了哪些问题,是怎么解决的?主要讨论了下精度问题、梯度爆炸、loss出现nan
5. 说说bf16、fp16、fp32的区别
6. 简单讲了下deepspeed
7. 微调的话用了哪些方法?讲主要是lora
8. 追问了下我们用lora调哪些参数?不同参数怎么选?什么影响?
……想不起来了一部分
7. 代码实现transformer原来的sinusoidal位置编码

团队介绍
主要做的产品是Soul X系列
目前算法组将近100个人,其中NLP组不到20个人,目前主要工作在Role Play方向,AI狼人杀也在其中。国内海外都有相关产品,业务赚钱为主,发专利为辅,有发专利的Okr,没发过论文,但有往技术自研转型的趋势。
资源方面的话H800,不到100张。
全部评论
请问soul算中厂嘛?今天刚面完
1 回复 分享
发布于 2024-04-07 21:13 北京
请问你是怎么遇到这么多温柔的面试官的
1 回复 分享
发布于 2024-04-07 14:59 北京
佬,从投简历到一面几天啊
点赞 回复 分享
发布于 2024-04-25 16:35 江苏
补充:位置编码PE输入的tensor shape是怎样的?
点赞 回复 分享
发布于 2024-04-07 12:23 北京

相关推荐

1. 通义千问 A优势:多模态理解强,多轮对话、文案、推理、多语言都稳;阿里云生态适配,企业客服 / 音视频总结很顺手。劣势:复杂任务不够灵活,多模态生成一般,部分场景响应偏慢。2. 文心一言 A优势:中文理解与生成顶尖,文学 / 商业文案质量高;隐私与合规做得很到位。劣势:专业深度不足,常要你补信息;交互一般,偶尔逻辑跳脱。3. 豆包 B+优势:性价比高,语音对话很拟人;中小企业 / 个人开发者部署快、成本低。劣势:复杂推理、高阶能力比头部竞品弱一截。4. 讯飞星火 A-优势:语音交互、逻辑推理强,教育 / 车载 / 数学题很吃香;跨语言跨领域稳。劣势:多模态生成弱,比较依赖自有生态。5. 腾讯元宝 B+优势:音视频处理强,自媒体剪辑、教育内容好用;多语言 + 界面友好。劣势:复杂请求处理效率一般。6. Kimi A+优势:长文本天花板,论文 / 合同 / 研报一把梭;安全性高。劣势:冷门知识表现一般,很吃输入质量。7. 智谱清言 A-优势:推理、数学、代码强,科研 / 开发很能打。劣势:生态弱,商业化落地案例少。8. 360 智脑 B优势:安全领域专精,威胁检测 / 防御强;政府、金融落地多。劣势:场景太窄,通用能力一般。
如果给AI员工评绩效,我...
点赞 评论 收藏
分享
评论
5
33
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务