许愿度小满

Rt,一下午面了三面,总的面试时间大概100分钟,一面20+,二面50+,三面30,从两点半到七点!每面都等了好久好久...不过我明确表示了只接受上海的岗位不知道会不会一直泡在池子!希望能上岸#许愿#
全部评论
点赞 回复
分享
发布于 2020-09-12 23:48
同求
点赞 回复
分享
发布于 2020-09-13 02:53
滴滴
校招火热招聘中
官网直投
什么时候能有结果呀
点赞 回复
分享
发布于 2020-09-13 10:40
话说要不要拉个群一起等哈哈哈
点赞 回复
分享
发布于 2020-09-13 11:20
度小满上海的岗有哪些啊 投递的时候只看到了北京
点赞 回复
分享
发布于 2020-09-13 12:14
小满欢迎你
点赞 回复
分享
发布于 2020-09-14 12:37
等消息群号码:735945121
点赞 回复
分享
发布于 2020-09-14 14:56
三面面经求一个
点赞 回复
分享
发布于 2020-09-18 22:48
软开三面,是面技术还是hr哇?
点赞 回复
分享
发布于 2020-09-19 17:54

相关推荐

北京度小满 测试开发 1095元/小时
点赞 评论 收藏
转发
1.自我介绍2.抓着项目的一些问面试官喜欢问从顶层的实验设计的一些东西我的实验为什么要选用 cos 距离或者 mse?能不能用 KL散度?是不能用还是不好用?KL 散度和交叉熵的区别和联系是什么?(都是我没考虑过的问题 有点汗流浃背)既然你用到了那么多微调方式, 那你有什么实验过程中探究了 lora 的比如 秩之类的参数的影响吗?prompt tuning  ptuning v2 有啥区别?(说完他觉得我说的太八股太宏观了,又讲了一堆原理)为什么 p v 2 比 prefix tuning 要减去那个 lstm 和 linear? 我说论文里说适配 NLG 任务,好像记错了。有没有接触过强化学习?为什么你们只考虑微调,是因为啥原因?你是用几张卡跑实验?多大参数的模型?跑的时候内存占用量多大?有没有试过全量微调? 那你想一下,假如我用 deepspeed 的几种版本, 全量微调7B 模型,内存占用多大?最后大概的意思就是说他比较看重实验最初的一些设计能力, 不能蹬 OOM 再来解决。让我之后要多理解一下 deepspeed。说社招看的多这些理解能力。反正基本上就是项目围绕讲。 后面说我项目做的,工程应该能力不错。 代码题也是那种很简单的处理数据。
点赞 评论 收藏
转发
3 收藏 评论
分享
牛客网
牛客企业服务