26秋招百度推荐算法一面

1.实习介绍
2.简历拷打

3.除了MMOE还用过其他的方案吗?cgc或者ple有尝试过吗?
4.如何解决mmoe输出特征一样,专家的参数最终会趋于一致的现象?
在网络参数随机初始化的情况下,不会发生问题中提到的问题。核心原因在于数据存在multi-view,只要每一个expert网络参数初始化是不一样的,就会导致每一个expert学到数据中不同的view。

5.多任务loss调整中回归损失会主导训练任务是怎么处理的?
在我的场景中是采用包序累积多分类替代了回归,也可以通过映射label上界或者禁止回传的方法,都试过。

6.transformer的参数量是多少?
层数(L):Encoder/Decoder 的堆叠层数
注意力头数(H):多头注意力 的并行任务数
隐藏层大小(D):特征向量的维度
序列长度(T):
输入/输出的最大 token 数 公式:总参数量 ≈ L×(4D^2+2D×H×T)

7.介绍一下encoder和decoder?
Encoder(编码器)作用:将输入序列(如文本)转换为上下文相关的表示向量。
Decoder(解码器)作用:根据编码器输出生成目标序列(如翻译或回答)。

8.在你场景中用的是二阶段的训练如何调整成一阶段的?

代码 给一个整数数组a,对a中的相邻整数进行浮点除法,如a=[2,3,4],即为2/3/4 在任意位置添加任意数目的括号,来改变算数的优先级,使得值最大,输出表达式
全部评论

相关推荐

11-11 12:10
门头沟学院 Java
1、实习项目介绍2、项目一拷打(10min)3、Java中线程池任务提交的流程是怎样的?4、线程池的拒绝策略有哪些?5、提交到任务队列的任务,它的消费策略是怎样的?6、如果是无界队列,还需要非核心线程吗?7、无界队列存在什么问题?一般在什么场景下使用无界队列?8、谈谈 Java 里面锁消除和锁升级9、synchronized 可重入吗?能保证可见性吗?10、某个服务 CPU 利用率到 100% 了,如何排查?11、如果是 OOM 了怎么排查?12、自己有用过 jmap 和一些工具去排查过错误吗?13、MySQL 有几种事务隔离级别?从低到高说14、什么是幻读?15、MySQL 是怎么去解决幻读问题的?16、谈谈 Kafka17、为什么项目中技术选型用的是 RabbitMQ?18、RabbitMQ 的数据持久化是怎么做的?19、线程和进程的区别?20、线程的安全怎么保证?21、进程通信的方式有哪些?22、进程间通信,它的数据传输大概是怎样的流程?怎么能让数据从一个进程传递到另一个进程去?23、Redis 常用的数据结构有哪些?24、谈谈 ZSet 的具体实现?为什么数据规模大的时候采用跳表而不是压缩列表?25、查一个有序集合里面元素的个数,复杂度是多少?命令是什么?26、取有序集合某个元素的分数,命令是什么?复杂度是多少?27、做题:给你一个有序的且含有重复元素的数组,找出某个元素出现的次数。例如 nums = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4],再给定一个 target,如果目标值为 1,则返回 1,因为 1 只出现了 1 次;如果目标值为 2,则返回 2,因为 2 出现了 2 次;以此类推。(利用有序的条件,通过二分查找去找 target 值的左右边界,然后右边界减去左边界的值即可)28、反问
查看27道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务