字节后端研发一面

  1. JAVA源码 HASHMAP底层机制
  2. TCP的细节,怎么建立连接的,拥塞控制,流量控制的区别
  3. MySQL MVCC机制,事务隔离级别,幻读
  4. JVM的垃圾回收,全过程,新生代,老年代,balabala的细节
  5. 进程间通信
  6. .写一道算法题,贪心,应该是leetcode原题
  7. 一个简单的动态规划
#字节跳动实习生招聘##后端开发话题##面经交流#
全部评论
我好急,还没消息
2 回复 分享
发布于 2022-11-25 22:32 江苏
这些题太简单了
1 回复 分享
发布于 2022-12-02 19:42 广东
出这些题明显是想要你啊
1 回复 分享
发布于 2022-11-27 17:09 北京
慕了
1 回复 分享
发布于 2022-11-24 17:56 上海
现在才面,23届?
1 回复 分享
发布于 2022-11-24 17:45 广东
大佬面试过了的话 是准备寒假去嘛
点赞 回复 分享
发布于 2022-11-27 11:29 四川
哪个部门啊
点赞 回复 分享
发布于 2022-11-26 16:33 辽宁
才问这么一点?我也日常,面试官问了十来个题做了俩算法踢给我整吐了
点赞 回复 分享
发布于 2022-11-26 11:13 浙江
base?
点赞 回复 分享
发布于 2022-11-26 03:47 湖北
刚面完呜呜
点赞 回复 分享
发布于 2022-11-24 17:09 江苏

相关推荐

一面 一、数据库相关1. 数据库的索引是什么?为什么使用索引?InnoDB的数据索引基于什么实现?2. B+树和B树的差异?3. B+树查询一次的时间复杂度是多少?4. 哈希数据结构的查询时间复杂度?5. MySQL为什么不使用哈希结构?6. 主键设计为什么一般用自增ID,而非身份证号等业务字段?二、进程、线程、协程相关1. 进程、线程、协程的定义?为什么需要协程?2. 两个线程修改共享变量的线程安全问题如何解决?3. 悲观锁和乐观锁的差别?三、TCP/UDP网络相关1. TCP和UDP的核心区别及应用场景?2. 滑动窗口机制的原理?3. 已发送但未收到ACK的问题如何解决?4. TCP三次握手能否改为两次,加超时重试?四、登录系统设计相关1. 支持30天免登录的数据库表设计(表数量、作用、主键、索引)?2. 前端与客户端交互中如何实现30天免登录?3. 是否了解SSO?4. 用户登录态的设计实现有哪几种?是否了解JWT?五、限流与缓存相关1. 高峰期如何避免流量打挂服务/底层存储(从限流和缓存角度)?2. 是否了解令牌桶和漏桶算法的实现、区别及适用场景?3. 缓存击穿和缓存穿透的区别及解决方法?4. 布隆过滤器的原理及误判解决/降低方法?六、Redis相关1. Redis的基本数据类型有哪些?2. set和zset的区别?3. zset的原理?七、其他技术相关1. 是否了解AI Coding(如OpenAI工具、Spectacle Coding、Web Coding)?Spectacle Coding解决了哪些问题?2. 是否接触过Go语言?
查看26道真题和解析
点赞 评论 收藏
分享
AI大模型算法,一环扣一环的拷打Transformer 基础详细介绍 Transformer 架构(Encoder-Decoder 结构、位置编码、FFN 等)Decoder 的因果注意力中,Q、K、V 分别来自哪里?→ Q 来自当前 Decoder 输入(已生成的 token 序列),K 和 V 也来自同一序列(需 mask 未来信息)Attention 为什么要 scaled?不做会怎样?为什么是√dₖ?→ 点积随 dₖ增大会让 softmax 进入饱和区,导致梯度消失;除以√dₖ可使方差稳定在 1(数学推导参考 Vaswani 论文)Transformer 如何加速推理?KV Cache 是什么?训练 vs 推理的并行性差异?→ 训练时所有 token 并行计算;推理时自回归,KV Cache 可缓存历史 K/V,避免重复计算,大幅提速多模态论文深挖(以 Video-LLaMA 为例)讲解 Video-LLaMA 的整体结构→ 视频编码器(如 ViT + Temporal Aggregator)→ 投影层(对齐文本空间)→ LLaMA 语言模型论文中 CoT(Chain-of-Thought)的具体设计?→ 在 prompt 中加入推理步骤示例(如 “视频中先看到人挥手,然后狗跑过来…”),引导模型分步作答微调 & 分布式训练微调用了 LoRA,介绍其原理→ 将权重更新 ΔW 分解为低秩矩阵 A×B,冻结原模型,只训练 A、B,大幅减少可训练参数LoRA 初始化怎么做?秩(rank)设为多少?为什么选这个值?→ A ~ N (0, σ²),B 初始化为 0;常用 rank=8 或 16,在效果和参数量间取得平衡(实验验证)知道 DeepSpeed 和 Megatron 吗?分别说说→ DeepSpeed(微软):主打 ZeRO 显存优化;Megatron-LM(NVIDIA):张量并行 + 流水线并行论文用 DeepSpeed,三个 Stage(ZeRO-1/2/3)分别是什么?→ Stage1:优化器状态分片;Stage2:+ 梯度分片;Stage3:+ 模型参数分片(通信换显存)二面下一篇再写吧,力竭了
查看10道真题和解析
点赞 评论 收藏
分享
评论
14
62
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务