京东技术一面大模型

一面 HR,这是二面,技术一面。
面试官人很好,聊了很久,总结一下问题吧。
1.自我介绍
2.项目介绍
3.你这个 prompt 是怎么调整的?
4.你如何评估你们这个效果呢?(我从数据评估和模型评估两方面讲)
5.你们的训练数据怎么构造的?用的什么格式?
6.全参微调训练一次多久?
7.主要是 SFT 吗?没考虑强化学习?
8.你觉得为什么现在大模型都是 only decoder?有什么好处?
9.lora 做过吗?讲一下原理
10.lora 你对哪些层次加 adapter?怎么定的?print model 看吗?(面试官后面说对不同层加 lora 效果影响还蛮大的,不仅仅是参数大小)
11. 对训练精度了解吗?(fp16 bf16 我讲的不太对,这部分不是很记得了,要复习一下)
 12.attention 里面的注意力分数是什么?为什么要 Q 乘以 Kt?什么含义?
13. 位置编码了解吗?讲一下

代码题:类似于 topk 但是不要求复杂度,更像是数据处理场景题。
反问:聊了很多,面试官人确实很好,泪目。只能说面试确实看缘分。
全部评论
我勒个豆,咱俩好像一样,我二面也是这个岗
点赞 回复 分享
发布于 2024-08-30 13:53 山西
东子一面是HR面么,为什么邮件通知一面都安排到了10号了
点赞 回复 分享
发布于 2024-08-30 12:27 北京
请问一面结果大概多久出的呀
点赞 回复 分享
发布于 2024-08-28 15:35 内蒙古

相关推荐

自我介绍以后开始拷问:项目:1,如何做到筛选视频困难样本的(只有这个答得有点曲折,也记不清项目里面是怎么做的了,其他答得还好的都记不清了,后面也知道了这个经历和公司业务内容强相关)八股:A。面试官说先从Python基础问起(问之前还确认了我用C还是用Python):1,Python里面可变对象跟不可变对象的一个区别,及其含义,以及模型训练当中怎么用2,Python里面可变对象包括什么,元组算不算可变对象3,对上一个的follow up:可变对象和不可变对象的本质区别?也即list能不能作为哈希表的key?(可能因为上一个问题答得隔靴搔痒没有切中面试官的心意)4,什么是全局解释器锁GIL,在这种情况下怎么进行多线程编程5,什么情况下会用多进程什么时候会用多线程6,多进程之间做并发的话怎么去做数据共享以及同步互斥(一开始自己回答了Lock,后来面试官提示是多线程之间做的并发,于是端上了Event和Semaphore Quene等)7,了解过Python装饰器的作用吗,在代码里面有没有用过,它的原理是什么8,Python在数据处理当中常见的性能优化手段9,10个T的视频数据浏(浏览数据或者点赞数据),想去统计这些数(每个视频的观看人数和点击人数)。这个东西用Python来写的话,会怎么去写(后续补充:在本地的机上面处理,而不是说用分布式那种那个来处理。10个T还不至于一定要上分布式)B,计网:1,HTTP跟HTTPS区别和联系C,数据库1,了解数据库事务吗,简单讲讲2,LEFT JOIN 和INNER JOIN的区别(但是本人对数据库实在不熟不知道有没有听错问啥……)D,大模型Transformer里面会用那个Flas Attention跟那个Paged Attention去优化,它们的那个区别跟那个原理是什么代码手撕:最长回文子串,不过是直接返回子串面试官看我补全代码以后捉了点bug就没说别的了,问了问时间复杂度以及有没有比动归更好的解法(此外我听过一个说法,说如果面试官直接问你hot100原题就是很想招你进来了,我不清楚)反问环节:1,这个实习岗位具体做什么?业务场景是什么?——主要围绕 TikTok 直播的音视频内容理解与标签体系建设。在连麦、试音等场景下,对内容进行识别后自动打玩法/分类/风格等标签。目标是提升标签质量(准确率/覆盖率等)并推动自动化。工作会包含线上推理服务与工程链路设计,配合策略/算法团队做模型与策略调优2,使用什么模型对数据打标签?开源还是闭源?——同时会做开源与闭源大模型的对比实验,效果好的方案会通过实验与切流获得更多流量。根据内容来看感觉这个应该是加了AI调用和提示词工程的python后端开发,整体更偏工程,也无怪乎大模型这块也就问了这么点btw喜茶的提拉米苏浓巧好喝
查看17道真题和解析
点赞 评论 收藏
分享
评论
9
42
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务