拼多多AI Infra面经

1.Transformer相比MLP的优点
2.介绍MHA、GQA和MLA
3.算法和Infra工作有什么不同,侧重点分别是什么
4.如何优化模型训练中的访存
5.有没有算子开发优化经验
6.介绍下针对k散度算子做了哪些优化
7.了解PagedAttention吗
8.Trition和CUDA区别
9.手撕代码
1)MHA
2)C++编程
全部评论

相关推荐

昨天 11:40
中山大学 Java
1.假如我们在处理千万级 Tick 时,内核协议栈的 Context Switch 是一个很大开销。怎么解决用户态驱动下 CPU 100% 轮询与中断平衡的问题?2.怎么防止伪共享3.从网卡接收数据到 WebSocket 广播给客户端,如何实现全链路零拷贝3.假如极端行情下的消息很多,当 BTC 剧烈波动的时候,全网成交量暴增 50 倍,WebSocket 出现拥塞导致反压你会怎么做,如何保证头部大客户的连接不掉线?4.币安对接了全球多个 AWS 区域的行情源。怎么来设计一个机制,要在多个行情源之间做到很快择优和去重,同时保证不出现行情倒挂5.跨机房计算 K 线时,如何处理时钟偏移)?如果不依赖原子钟,你如何评估 PTP 协议在生产环境中的抖动?6.如果订单簿深度达到 1000 档的时候,带宽压力很大,如何设计就是当客户端重连时,怎么去追回数据?7.实现多线程行情分发时,如果两个 AtomicLong 计数器落在同一个 64-byte Cache Line 会发生什么?8.解释一下MESI 协议下的 Invalid 状态导致的总线风暴问题是怎么样的9.说一下std::hardware_destructively_interference_size 的具体应用场景10.Java 中Padding与 @Contended 注解的差异11.实现一个支持多生产者-多消费者的 Lock-free RingBuffer需要哪些组件12.你觉得为什么币安行情广播不用 JSON 或 Protobuf 而可能选择 SBE?13.你觉得为什么将 double 换成 long呢14.如果全球内网传输行情时,UDP 丢包了怎么办?15.撮合引擎推过来的增量 Delta 非常碎,怎么做聚合?16.你如何证明你的行情引擎比对手快 10 微秒?17.在高频波动下,如何保证 1 分钟 K 线的 Close 价和下一分钟的 Open 价绝对一致,且不锁死全局流?18.如果下游计算节点挂了,行情产生堆积,你是宁愿发旧行情还是停掉行情19.你聊一下说的Stale Data 惩罚机制具体怎么实现呢20.如果某量化机构通过物理托管获得了比普通用户快 2ms 的行情,作为系统设计者,你如何设计 来平衡这种优势,或者说这是不是属于业务设计的范畴?为什么20.手撕:实现一个支持 O(1) 复杂度的“动态窗口 K 线聚合器”。要求:在毫秒内处理 100 万笔成交,并实
查看22道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务