字节跳动

收藏
互联网
10000人以上
D轮及以上
北京市
福利丰厚榜高校必争榜offer比较常胜榜HC充足榜校招高薪榜牛客指数榜
查看官网
上传简历
职位类型
全部
后端开发
前端开发
客户端开发
测试
数据
更多
最新
热门
昨天 11:21
已编辑
北京航空航天大学 Java
年份:2026月份:2月面试轮次:三面岗位:中间件研发/SRE专家难度:⭐⭐⭐⭐⭐面试回顾:“设计一个用于RocketMQ/Kafka的消息轨迹追踪与全链路诊断平台。目标:1)能对每秒百万级的消息生产/消费进行无侵入、低开销的轨迹采集;2)能还原任意一条消息的完整生命周期(从哪个Producer、经过哪些Topic/Queue、被哪个Consumer消费、处理成功/失败、耗时多久);3)当出现消息堆积、重复消费或丢失时,能快速定位瓶颈或异常节点。给出架构设计、数据采集方案、存储与查询引擎选型。”💡 解析:这是一道“可观测性”领域的顶尖难题,将消息中间件与分布式追踪深度结合。它要求超越简单的监控报警,构建一个能进行事后复杂调查的“病历系统”,是SRE和中间件团队的核心能力。设计思路:应用业务场景:这是保障抖音电商下单、支付、库存扣减等核心链路最终一致性的生命线。当用户支付成功但订单未更新时,运维人员可以凭借支付中心发出的消息ID,在这个平台中快速查明:消息是否发出?是否成功存储到Broker?库存服务是否已消费?消费耗时多久?是否抛出了异常?从而在几分钟内定位是网络问题、代码BUG还是数据库故障。核心考点:分布式追踪原理(OpenTracing, OpenTelemetry)消息中间件(RocketMQ/Kafka)的客户端与Broker端原理海量日志/时序数据处理架构(ELK/EFK, ClickHouse)流式计算(Flink)在可观测性场景的应用低性能损耗的埋点设计与异步编程实践(避坑指南):采样率控制:        全量采集在洪峰期可能压垮系统。必须支持动态采样(如1%采样率),并在发生错误时(如消费失败)自动提升该链路的采样率为100%,确保问题可被追踪。上下文传递:            traceId必须在整个异步消息链路中传递,包括线程池切换、异步回调、跨服务RPC调用,否则链路会断裂。存储成本:            轨迹数据量巨大,必须设计清晰的生命周期策略(热数据ES,温数据ClickHouse,冷数据归档到对象存储)。🚨 趋势押题预测预测名称:基于消息轨迹的智能根因分析与自愈系统押题题目:“在上述轨迹追踪平台的基础上,设计一个智能根因分析与自愈系统。要求:1)系统能自动分析消息堆积、延迟增高的故障,通过关联 metrics、trace、log 数据,自动定位到具体的服务、代码方法或基础设施层(如网络、磁盘);2)在识别出已知模式(如某数据库慢查询导致消费阻塞)后,能自动执行预案(如扩容、重启消费者、流量调度);3)生成可读的故障分析报告。阐述如何实现多源数据关联、根因分析算法,以及安全自动化的边界。”押题依据:公开招聘需求:在BOSS直聘和拉勾网上,字节跳动2026年发布的“SRE”、“可观测性引擎研发”岗位中,超过70% 的JD明确要求“有AIOps、智能运维、根因分析项目经验”或“熟悉OpenTelemetry标准”。这标志着运维正从“监控告警”向“智能诊断”演进。行业技术风向:**CNCF(云原生计算基金会)** 在2025年的年度报告中,将“AIOps”和“可观测性”列为增长最快的两大技术领域。KubeCon 2025 上有多个议题专注于“Using eBPF and ML for Root Cause Analysis”。开源项目动态:SkyWalking、Elastic APM 等主流APM项目在2025年均增加了机器学习检测异常的插件或集成。这证明智能分析已成为可观测性工具演进的下一站。官方技术发声:    火山引擎在2026年初的“云原生日”活动中,发布了“可观测性套件”的升级,重点宣传了其“智能诊断”功能,表明这是字节对外的技术产品方向,必然驱动内部技术栈对齐和人才要求。押题逻辑理由:当前面试题考察的是构建可观测性的“数据采集与查询”能力,这是基础。而行业公开的技术趋势(CNCF报告)、人才市场的明确需求(招聘JD)、以及字节自身对外的产品发布(火山引擎智能诊断),三者共同且强烈地指向了下一个技术制高点:利用已收集的海量可观测性数据,通过算法实现自动、精准的故障定位与自愈。面试官通过此题,能筛选出不仅会搭建系统,更能思考如何让系统产生“智能”、直接赋能业务稳定性的顶尖候选人。押此题,是基于公开的招聘要求、行业共识与公司产品路线图的强关联推导。核心考点:AIOOps基本理念、多源数据关联分析、时间序列异常检测算法、故障模式库、自动化运维的安全边界。适配岗位:    SRE专家、可观测性平台架构师、中间件研发。押中概率:    【80%】 (行业明确趋势+招聘需求显性化+内部技术产品化)// 【代码示例】基于简单规则的根因模式识别器(概念示例)@Componentpublic class RootCauseAnalyzer {@Autowiredprivate MetricService metricService;@Autowiredprivate TraceService traceService;@Autowiredprivate IncidentRepository incidentRepo;public Optional<Diagnosis> analyze(Alert alert) {// 1. 获取关联时段内的多维数据Instant windowStart = alert.getFireTime().minusSeconds(300);Instant windowEnd = alert.getFireTime();// 获取相关服务的延迟、错误率指标Map<String, Double> latencySpike = metricService.getTopNSpikes("service_latency", windowStart, windowEnd, 5);// 获取慢Trace样本List<SlowTrace> slowTraces = traceService.getSlowTraces(windowStart, windowEnd, 10);// 获取错误日志聚合List<ErrorPattern> errorPatterns = logService.getErrorPatterns(windowStart, windowEnd);// 2. 应用规则进行模式匹配 (此处为简化示例,实际可能使用决策树或图算法)// 规则A: 如果某个服务S延迟飙升,且其下游依赖DB的慢查询比例同时飙升for (String spikedService : latencySpike.keySet()) {List<String> downstreamDBs = getDownstreamResources(spikedService, "DB");for (String db : downstreamDBs) {if (metricService.isSpiked(db + "_query_duration", windowStart, windowEnd)) {// 匹配到“数据库慢查询导致服务延迟”模式return Optional.of(new Diagnosis("DB_PERF_ISSUE",String.format("服务[%s]延迟由数据库[%s]慢查询导致", spikedService, db),List.of(new Action("SCALE_DB", db), new Action("RESTART_CONSUMER", spikedService))));}}}// 规则B: 如果错误日志中频繁出现“ConnectionTimeout”,且对应主机网络指标异常// ... 其他规则return Optional.empty(); // 无法自动诊断}}宝子们,字节跳动真题和押题预测都给你们整理好了,赶紧【关注】评论、收藏起来好好准备,祝大家都能顺利上岸!💪~~~关注/评论区:接好运~~~~~~上岸~!
查看2道真题和解析
点赞 评论 收藏
分享
昨天 01:52
门头沟学院 C++
我最近把AI Agent面经从0到1全部梳了一遍(含字节、阿里、腾讯真实面试),发现面试官真正想听的根本不是定义。很多人(包括苯人一开始)以为Agent面试就是背ReAct、背Tool Calling、背LangChain,结果一开口就被面试官打断:“这些我都知道,你说说你的设计思路。”我问懵过两次后才醒悟,Agent面试不是八股,是体系考察。下面这3个问题,几乎是每场面经中必问,🐮友们看看自己会不会踩坑。1.如果你做一个Agent,遇到工具调用失败或者LLM幻觉怎么办?我当时直接答“加retry”或“加human in the loop”,秒挂后面问claude,面试官想听的是完整容错体系:- 怎么判断是工具错还是LLM幻觉?- 用另一个LLM做fact-check / self-consistency- 降级到弱Agent / 规则引擎 / 人工兜底- 失败后状态怎么回滚?- 生产环境怎么监控Agent健康度2. Agent的Memory你怎么设计?大多数人(和我一样会说短期用ConversationBuffer,长期用向量数据库,直接寄。面试官想听的是分层记忆体系 + 读写策略:- Working Memory(当前任务上下文)- Episodic Memory(历史任务轨迹)- Semantic Memory(领域知识)- 什么时候用向量检索?什么时候用Graph?- 遗忘机制怎么做?(重要性评分 + 定期压缩)- 多Agent共享Memory时的读写锁和一致性问题3.单Agent和Multi-Agent你什么时候选哪个?怎么协作?”如果直接说任务复杂就用Multi基本凉。真正要讲的是决策框架:- 任务可分解性、通信成本、调试难度、单点故障风险- 协作模式(Hierarchical / Decentralized / Mixture-of-Agents)- 协调机制(Shared State / Message Queue / Supervisor)- 实际项目里Multi-Agent带来的收益和踩过的坑
查看3道真题和解析
点赞 评论 收藏
分享
04-12 21:45
门头沟学院 Java
感觉面完人都通透了,还是太菜了,下去沉淀一下1.可以挑一个最近觉得挑战比较大的项目展开介绍一下吗?2.Agent内部具体的实现可以再详细介绍一下吗?3.MCP是把自然语言转成预置查询类的工具吗?4.操作内部平台时,工具会去操作吗?5.系统测试完成后,准确率怎么评估?6.用20%数据作为测试集,是模型跑case后人工评判准确率吗?7.如何对答案进行轨迹级评分?8.目前系统的准确率是多少?9.项目后续继续优化的话,有哪些优化思路?10.现在系统最核心的问题是并发问题吗?11.准确率还有提升空间吗?12.模型输出不符合预期时,prompt会有问题吗?会调prompt吗?13.有考虑过做SFT和强化学习吗?14.目前RAG具体的实现是怎么样的?15.如果用Redis的缓存,会在哪个阶段去做?16.Redis为什么在高并发情况下表现得比较好?17.什么场景下会用多线程?18.RAG作为知识库检索,和把知识库放到ES上让模型调用MCP接口有什么区别?19.若自己实现包含ES检索和向量检索的搜索接口,和RAG有什么区别?20.Redis和MySQL在使用场景上有哪些区别?21.B+树是怎么样的结构?22.B+树和红黑树的区别是什么?MySQL用红黑树效率会更好吗?23.1000万条数据用B+树存储,树的高度大概是多少?24.场景题,给定一个实时输入流(随时可能停,无法全量存储),如何等概率选取5条记录?25.手撕:两个有序数组,O(logN)求合并后第k大的数
查看25道真题和解析
点赞 评论 收藏
分享
04-12 15:26
已编辑
北京航空航天大学 Java
面试轮次:三面岗位:AI平台研发/机器学习平台工程师难度:⭐⭐⭐⭐⭐📝面试题“为大规模分布式模型训练(如千卡级别训练ERNIE 4.0)设计一个高性能、可扩展的数据预处理与采样服务。要求:1️⃣ 能从海量(PB级)原始日志/文本中,实时清洗、去重、标准化,生成训练样本;2️⃣ 支持复杂的采样策略(如按热度负采样、难例挖掘);3️⃣ 服务需以高吞吐(>10W样本/秒/节点)向训练集群供给数据,并保证全局采样分布的一致性。给出架构设计、核心数据处理流水线,并解决数据倾斜与背压问题。”💡解析:AI工业化生产的“数据引擎”💻 这道题直击AI工业化生产的核心——数据流水线。它要求构建一个从原始数据到模型输入的“端到端”高效转化系统,既要处理海量数据,又要保证数据质量与采样智能性,是机器学习基础设施的关键环节。📌设计思路🔹分层异步流水线📥 数据摄取层工具:Apache Kafka/Pulsar作用:承接来自各业务的实时数据流,解耦数据生产与消费,提供缓冲能力。🛠️ 数据处理层核心引擎:Apache Flink(流批一体)处理逻辑:解析:将原始日志(如JSON、文本)解析为结构化数据。过滤:去除无效、重复或低质量样本。标准化:统一字段格式、单位、编码等。向量化:将文本等非结构化数据转换为模型可处理的数值向量。复杂采样:在Flink中实现自定义ProcessFunction,支持按热度负采样、难例挖掘等策略。💾 存储与供给层存储:处理后的样本写入Alluxio(内存加速)或HDFS,兼顾性能与成本。供给:通过Petastorm、TensorFlow Datasets或自研DataLoader服务,以高吞吐、随机化方式供给训练器。🔹全局采样一致性🌐 挑战:分布式环境下,各节点独立采样可能导致全局分布不一致,影响模型收敛。💡 解决方案:引入中心化采样状态协调器(基于Redis或数据库)。每个采样器在采样前向协调器申请一个“全局epoch”和“种子”。确保所有训练进程在同一epoch内看到相同的、确定性的随机采样序列。🔹背压与弹性处理🚨 背压机制:Flink内置背压传递,当训练器消费变慢时,背压会沿流水线反向传递至Kafka,自动调节消费速率,避免系统崩溃。📊 数据倾斜处理:在keyBy操作前对热点key添加随机后缀进行打散。在后续处理完成后再合并结果,平衡各节点负载。💼应用业务场景📈 实际案例:字节跳动AI Lab训练下一代大模型(如ERNIE 4.0)。抖音推荐模型需实时吸收用户最新交互日志。翻译模型需处理全网新增平行语料。数据预处理管道是模型效果的“第一道质量关”和“效率瓶颈”,其性能直接决定模型迭代速度和上限。📚核心考点📊 大数据处理框架:Flink流批一体、状态管理、窗口机制。🌐 分布式机器学习:数据供给模式、采样一致性、并行训练。🎲 采样算法工程化:复杂采样策略的实现与优化。💾 高性能存储:Alluxio、HDFS、Parquet/TFRecord等格式的选择与优化。🔧 系统稳定性:背压处理、故障恢复、资源隔离。🛠️实践(避坑指南)🔸序列化开销💨 问题:样本在JVM对象与存储格式间反复序列化是主要开销。🔧 解决方案:使用高效序列化框架(如Apache Avro、FlatBuffers)。优化Schema设计,减少冗余字段。🔸状态管理📈 问题:流式去重或时间窗口统计时,Flink状态可能巨大。🔧 解决方案:精心设计状态后端(RocksDB)和状态TTL。考虑分级存储,将冷数据卸载到外部存储。🔸资源隔离⚠️ 问题:预处理作业可能消耗大量CPU和内存,影响线上服务。🔧 解决方案:与线上服务容器进行物理或逻辑资源隔离。使用Kubernetes等容器编排工具进行资源限制和调度。💬 关注呼吁:各位小伙伴们,如果觉得这篇解析干货满满,对大家准备面试有很大帮助,那就多多关注呀!后续还会有更多超实用的面试真题解析和行业前沿知识分享,关注不迷路,一起在求职路上披荆斩棘!🚨趋势押题预测🔮预测名称:在线学习与增量数据实时融合训练系统📝押题题目:“设计一个支持在线学习的模型训练系统。新产生的数据需要近乎实时地被用于增量更新线上模型,而不是等待下一次全天重训练。系统需处理:1️⃣ 流式数据与历史数据的混合采样;2️⃣ 新模型与旧模型的热切换与A/B评估;3️⃣ 保证训练过程不影响线上服务的稳定性与资源。阐述端到端架构、模型更新策略,以及如何解决‘灾难性遗忘’等机器学习问题。”📊押题依据:📈 频次统计:在顶级的机器学习平台岗位面试中,“训练管线”与“实时性”的结合是终极挑战之一,相关设计题年出现12次,是区分普通平台开发与领域专家的试金石。🚀 新趋势需求:业务迭代速度要求模型具备“快速学习”能力。例如,新闻推荐模型需要能立刻学会刚刚爆发的热点事件。在线学习/增量学习是实现这一目标的关键技术,是各大厂研究与应用的重点。📚 信息来源:参考业界对在线学习系统的探索论文,以及头部公司在模型快速迭代方面的技术分享。🤔押题逻辑理由:更前沿、更复杂的范式是让训练本身“流式化”和“在线化”。这不仅是系统设计上的革命(需要处理动态图、状态化服务、滚动更新),更触及机器学习理论(稳定性与可塑性权衡)。考察此类问题,能够全面评估候选人在系统架构和算法原理交叉领域的顶尖实力与前瞻性思考。📚核心考点:🧠 在线学习算法框架:如FTRL、Online Gradient Descent等。🌐 流式训练系统架构:动态图处理、状态管理、模型版本控制。🔄 模型版本管理与热部署:无缝切换、A/B测试、回滚机制。📈 模型稳定性监控:性能指标、灾难性遗忘检测与缓解。💼适配岗位:机器学习平台架构师、AI基础设施负责人。🎯押中概率:60%​ (前沿探索性题目,用于选拔具有研究能力和架构视野的顶尖人才)【示例代码】查看我的专栏取...........~~~💬 最后互动:宝子们对未来的面试趋势有什么想法呢?觉得在线学习与增量数据实时融合训练系统这个方向怎么样?快来评论区畅所欲言,咱们一起探讨求职新方向!同时别忘了关注作者,获取更多精彩内容哦!~~~关注/评论区:接好运~~~~~~上岸~!
查看2道真题和解析
点赞 评论 收藏
分享
04-12 08:20
已编辑
重庆邮电大学 前端工程师
超级社牛老登捞了我一把,所以感觉才会面的比较的顺利,这里也是给老登跪了。而且hr还问了我之前的ld我的表现,我之前的ld也是给了很好的评价,这里也是泪目了,字节飞书管理后台/安全部门 里的人都是超级和善的好人,望周知。还有一点感觉就是现在都不问我的破QQ项目了,我这破QQ项目是我和一个啥鸾工作室同学写的,nm去年都在用,现在再用就有点垃圾了。打算写一个一站式生成Galgame的Agent项目,因为看到最近国G出这么多事,md我想搓个好的国G拯救国G,一面(mt)1. 小红书简历提问,Stylus类名原子化转换器2. Openclaw记忆相关的问题(memory,soul,boostrap之类的,简单说说就完了)3. 如果让你进行一个大型仓库的重构,怎么结合AI进行重构4. 知道harness engineering吗(刷到过,没点进去看)5. 用过哪些模型,用的啥Coding Plan6. 上一段也是字节,为什么离职7. 如下是一段AI写的代码,请你找出它有问题的地方,以及需要改进的地方(闭包,性能问题,强调了下fiber,然后面试官说现在不问八股了)8. 同7,又是一段代码,给出改进意见(utils类型要封装useHooks,代码逻辑耦合,useContext太重导致频繁渲染)9. when,where二面1. 同上,不过深入询问了2. 上一段也是字节,为什么离职3. 说下你用openclaw进行飞书管理后台61个模块改造提效的过程体会4. 算法:get(obj,'a[0].b.c'),获取obj中对应的字段的值5. 算法:ShuffleArr,输入[1,2,3],随机打乱进行输出,每一个数字出现在各个位上的概率是相同的6. harness engineering7. when,where三面(ld)1. 现在让你对一个大型仓库进行业务开发,如何利用AI提效(按照模块or业务进行多Agent各自读取,产生一个各自模块的总结,结合AGENTS.md啥的看能不能补充足够的上下文,然后再开发。其实我是想到什么说什么的)2. 那对于小仓库呢,也要多agent吗?如果宕机了怎么办?怎么控制并发数目?那你可不可以把上面的做成一个插件,你会怎么设计(我说仓库的大小我也不知道怎么界定,那么就让用户选择是否需要多agent分析吧,反正要分析得到一个上下文md,然后是业务开发的agent进行开发,为了避免开发中途宕机or什么问题,所以可以借鉴OpenSpec的tasks.md文件,将开发任务拆成一个个小task,然后完成一个标记一个。至于并发数目我也不明白,暂时就根据用户电脑内存来划分吧,然后测试阶段加一个QA Agent,配上一些可观测数据啥的测试就行。然后说了下上下文焦虑的问题,)3. when,where反问:harness engineering贵部门怎么搭建的?流水线还是多agent协作?hr面1. 面试感受2. 为什么上一段离职3. 你是慢热型的吗4. 介绍工作强度(10-10),团队氛围5. 有很低概率审批挂,or加面反问:为什么面试官感觉都这么懂AI?比我之前面试的AIDP面试官还要厉害的感觉?答:剪映是字节AI试点的业务部门,在大力推AI暂时没有消息,4.15房租到期,俺就要会重庆了,不管怎么样吧,终于还是离开了待了9个月左右的上海,物价没有想的那么贵,虽然房租确实贵,但是吃的还能接受,外卖价格也差不多,但还是怀恋重庆的美食,哪怕回到重庆随便找一家公式化重庆小面品尝一下,都是一件多么棒的美事儿啊
查看15道真题和解析
点赞 评论 收藏
分享
分享我的面试经验
模拟面试
真实面试体验,快速补齐短板
应聘感受
暂无应聘感受
牛客网
牛客网在线编程
牛客网题解
牛客企业服务