奇点云 运维实习面经

1.自我介绍一下
2.项目经历是实习中的还是自己环境上搭的?
3.项目中跟实习内容相似的点?
4.如果将jenkins用进项目,cicd的流程?前者与我自己项目不同的地方?
6.小型站点项目中upsite.sh和api两个脚本的主要作用?
7.docker官网被墙的情况下怎么拉取镜像?不想推到官网镜像,在私有环境下如何替代?有了解过类似harbor这种镜像仓库管理软件吗?
8.服务器巡检的指标以及如何采集的?zabbix是自己搭建出来自己做的,还是使用的是现有存在的。
9.集群组建包含哪些?
10.服务器是机房还是云服务器?为什么使用了阿里云的服务器,不使用阿里云的数据库,负载均衡等技术?
11.实习公司有几个运维?公司做的是什么业务?
12.日常做哪些shell脚本以及自动化运维?会经常用shell来部署吗?
13.会对接使用用户吗?因为我这边看你还会写技术指南和用户手册
14.在实习公司会有k8s的使用吗?k8s的几个核心组件(简历包装写的熟悉但是完全不会,被拷打了)
15.iptables做哪些基本规则?用哪些链?
16.mysql主从原理?在什么情况下发生主从不同步?会分成读写分离吗?

反问环节

全部评论
楼主能不能分享下资料
点赞 回复 分享
发布于 2025-11-27 14:52 湖南
过了吗
点赞 回复 分享
发布于 2025-02-28 21:11 浙江
这么多问题能答出来多少啊,工作五六年的都没你这被问的多。
点赞 回复 分享
发布于 2025-02-24 12:33 北京

相关推荐

04-15 13:06
门头沟学院 Java
1.Java 有哪些基本数据类型?2.char 类型占几个字节?3.基本数据类型和包装类有什么区别?4.Java 中常用的集合类有哪些?5.HashSet 的底层数据结构是怎样的?6.HashMap 的 put 方法执行过程是怎样的?7.HashMap 中判断 Key 相等是通过什么方式?8.Java 中的 equals 和 == 有什么区别?9.HashMap 扩容时是怎么处理的?10.扩容后,原数组下标和新数组下标有什么对应关系?11.高低位是如何判断的?12.多线程与并发 (JUC)Java 中加锁的方式有哪些?13.synchronized 和 ReentrantLock 有什么区别?14.ReentrantLock 的公平锁和非公平锁在实现上有什么区别?15.synchronized 的锁升级过程是怎样的?16.锁可以降级吗?17.线程池执行任务的流程是怎样的?18.核心线程数满了之后,为什么先放入队列,而不是直接启动非核心线程?19.核心线程可以被销毁吗?20.线程在执行任务过程中抛出异常会有什么影响?21.InnoDB 的事务隔离级别有哪些?22.可重复读(RR)是通过什么机制实现的?23.MVCC 的原理是什么?24. 结合索引查询、Read View 和 Undo Log,详细讲讲查询一条数据版本的全过程。25.InnoDB 索引的数据结构是怎样的?26.B+ 树和 二叉树有什么区别?27.MVCC 加临键锁)能彻底解决幻读问题吗?28.举个无法解决的 Case。29.间隙锁在 RC(读已提交)和 RR(可重复读)级别下有什么区别?30.Redis 的 IO 模型是怎样的?31.Redis 6.0 之后引入多线程的作用是什么?32.Redis 中的大 Key 需要怎么去删除?33.Redis 内存不足时的淘汰策略有哪些?34.如何用 Java 设计一个 LRU 缓存,实现 O(1) 的查询和修改?35.第一段实习经历的离职原因是什么?36.在运维平台项目中,负责了哪些功能,解决了什么问题?37.通过 Dubbo Filter 记录慢请求日志的具体实现细节是什么?38.Dubbo Filter 的设计模式是什么?39.如何从全局视角统计慢请求(例如按时间段、高频接口 Top 排行)?40.是否有接入完整的监控大盘?41.项目中遇到过哪些棘手的技术问题?42.如果定时同步 Redis 的过程失败了,有什么告警和重试的策略?43.平时编程会使用 AI 工具吗?44.使用什么工具和模型?45.AI 生成代码和手敲代码的比例大概是多少?46.AI 领域的 MCP 协议和 Agent Skills 概念有什么区别?
点赞 评论 收藏
分享
04-13 11:21
已编辑
北京航空航天大学 Java
年份:2026月份:2月面试轮次:三面岗位:中间件研发/SRE专家难度:⭐⭐⭐⭐⭐面试回顾:“设计一个用于RocketMQ/Kafka的消息轨迹追踪与全链路诊断平台。目标:1)能对每秒百万级的消息生产/消费进行无侵入、低开销的轨迹采集;2)能还原任意一条消息的完整生命周期(从哪个Producer、经过哪些Topic/Queue、被哪个Consumer消费、处理成功/失败、耗时多久);3)当出现消息堆积、重复消费或丢失时,能快速定位瓶颈或异常节点。给出架构设计、数据采集方案、存储与查询引擎选型。”💡 解析:这是一道“可观测性”领域的顶尖难题,将消息中间件与分布式追踪深度结合。它要求超越简单的监控报警,构建一个能进行事后复杂调查的“病历系统”,是SRE和中间件团队的核心能力。设计思路:应用业务场景:这是保障抖音电商下单、支付、库存扣减等核心链路最终一致性的生命线。当用户支付成功但订单未更新时,运维人员可以凭借支付中心发出的消息ID,在这个平台中快速查明:消息是否发出?是否成功存储到Broker?库存服务是否已消费?消费耗时多久?是否抛出了异常?从而在几分钟内定位是网络问题、代码BUG还是数据库故障。核心考点:分布式追踪原理(OpenTracing, OpenTelemetry)消息中间件(RocketMQ/Kafka)的客户端与Broker端原理海量日志/时序数据处理架构(ELK/EFK, ClickHouse)流式计算(Flink)在可观测性场景的应用低性能损耗的埋点设计与异步编程实践(避坑指南):采样率控制:        全量采集在洪峰期可能压垮系统。必须支持动态采样(如1%采样率),并在发生错误时(如消费失败)自动提升该链路的采样率为100%,确保问题可被追踪。上下文传递:            traceId必须在整个异步消息链路中传递,包括线程池切换、异步回调、跨服务RPC调用,否则链路会断裂。存储成本:            轨迹数据量巨大,必须设计清晰的生命周期策略(热数据ES,温数据ClickHouse,冷数据归档到对象存储)。🚨 趋势押题预测预测名称:基于消息轨迹的智能根因分析与自愈系统押题题目:“在上述轨迹追踪平台的基础上,设计一个智能根因分析与自愈系统。要求:1)系统能自动分析消息堆积、延迟增高的故障,通过关联 metrics、trace、log 数据,自动定位到具体的服务、代码方法或基础设施层(如网络、磁盘);2)在识别出已知模式(如某数据库慢查询导致消费阻塞)后,能自动执行预案(如扩容、重启消费者、流量调度);3)生成可读的故障分析报告。阐述如何实现多源数据关联、根因分析算法,以及安全自动化的边界。”押题依据:公开招聘需求:在BOSS直聘和拉勾网上,字节跳动2026年发布的“SRE”、“可观测性引擎研发”岗位中,超过70% 的JD明确要求“有AIOps、智能运维、根因分析项目经验”或“熟悉OpenTelemetry标准”。这标志着运维正从“监控告警”向“智能诊断”演进。行业技术风向:**CNCF(云原生计算基金会)** 在2025年的年度报告中,将“AIOps”和“可观测性”列为增长最快的两大技术领域。KubeCon 2025 上有多个议题专注于“Using eBPF and ML for Root Cause Analysis”。开源项目动态:SkyWalking、Elastic APM 等主流APM项目在2025年均增加了机器学习检测异常的插件或集成。这证明智能分析已成为可观测性工具演进的下一站。官方技术发声:    火山引擎在2026年初的“云原生日”活动中,发布了“可观测性套件”的升级,重点宣传了其“智能诊断”功能,表明这是字节对外的技术产品方向,必然驱动内部技术栈对齐和人才要求。押题逻辑理由:当前面试题考察的是构建可观测性的“数据采集与查询”能力,这是基础。而行业公开的技术趋势(CNCF报告)、人才市场的明确需求(招聘JD)、以及字节自身对外的产品发布(火山引擎智能诊断),三者共同且强烈地指向了下一个技术制高点:利用已收集的海量可观测性数据,通过算法实现自动、精准的故障定位与自愈。面试官通过此题,能筛选出不仅会搭建系统,更能思考如何让系统产生“智能”、直接赋能业务稳定性的顶尖候选人。押此题,是基于公开的招聘要求、行业共识与公司产品路线图的强关联推导。核心考点:AIOOps基本理念、多源数据关联分析、时间序列异常检测算法、故障模式库、自动化运维的安全边界。适配岗位:    SRE专家、可观测性平台架构师、中间件研发。押中概率:    【80%】 (行业明确趋势+招聘需求显性化+内部技术产品化)// 【代码示例】基于简单规则的根因模式识别器(概念示例)@Componentpublic class RootCauseAnalyzer {@Autowiredprivate MetricService metricService;@Autowiredprivate TraceService traceService;@Autowiredprivate IncidentRepository incidentRepo;public Optional<Diagnosis> analyze(Alert alert) {// 1. 获取关联时段内的多维数据Instant windowStart = alert.getFireTime().minusSeconds(300);Instant windowEnd = alert.getFireTime();// 获取相关服务的延迟、错误率指标Map<String, Double> latencySpike = metricService.getTopNSpikes("service_latency", windowStart, windowEnd, 5);// 获取慢Trace样本List<SlowTrace> slowTraces = traceService.getSlowTraces(windowStart, windowEnd, 10);// 获取错误日志聚合List<ErrorPattern> errorPatterns = logService.getErrorPatterns(windowStart, windowEnd);// 2. 应用规则进行模式匹配 (此处为简化示例,实际可能使用决策树或图算法)// 规则A: 如果某个服务S延迟飙升,且其下游依赖DB的慢查询比例同时飙升for (String spikedService : latencySpike.keySet()) {List<String> downstreamDBs = getDownstreamResources(spikedService, "DB");for (String db : downstreamDBs) {if (metricService.isSpiked(db + "_query_duration", windowStart, windowEnd)) {// 匹配到“数据库慢查询导致服务延迟”模式return Optional.of(new Diagnosis("DB_PERF_ISSUE",String.format("服务[%s]延迟由数据库[%s]慢查询导致", spikedService, db),List.of(new Action("SCALE_DB", db), new Action("RESTART_CONSUMER", spikedService))));}}}// 规则B: 如果错误日志中频繁出现“ConnectionTimeout”,且对应主机网络指标异常// ... 其他规则return Optional.empty(); // 无法自动诊断}}宝子们,字节跳动真题和押题预测都给你们整理好了,赶紧【关注】评论、收藏起来好好准备,祝大家都能顺利上岸!💪~~~关注/评论区:接好运~~~~~~上岸~!
查看2道真题和解析
点赞 评论 收藏
分享
04-21 11:31
已编辑
北京城市学院 测试工程师
你自己这会的话,对哪方面的技术比较感兴趣?像在这里边的领域里边的话,目前你自己对哪一块研究的会比较深一些?那你接触的这个,比如 GPU 吧, GPU 这块的话,你接触的这这些显卡呀都是都是什么型号的呀?你调试过哪些东西啊?像那个 GPU 里面的网络的话有接触过吗?那比如像 GPU 里边,咱们都知道 GPU 的话,它这东西肯定是离不开高速网的,对吧?因为你因为它本身这个过程中的传输也是巨耗带宽的,对吧?像这里边的话,像那个带宽方面的,有做过调试吗?像你这里边调试的话,你比比如说你怎么怎么对你印象最深的?你有有有有几个地方你觉得是对自己觉得是成就感比较比如说像有没  有遇到那个 GPU 的,就是那个显卡,它这个显卡呢,用了一段时间,它这个显卡呢重启完之后,它驱驱动不是会掉吗?对吧。哦,这种问题有解决过。你维护的这么就就就不管是短短的多久的多长时间嘛。就比如说它有没有遇到这种这种那个 GPU 服务器出现什么比如说显卡驱动掉,这种问题有有有办法规避吗?像在这个 Kubernetes 里边的话,你做过的哪些东西会多一些?在这个 K8S 里边呢,我想的把那个里边像像你刚才说的都暴露了。我想把里边的某一个服务的服务对外,让它提供服务,哪怕是一个 Nginx,或者提供了一个页面,我的页面呢部署了一个官网,比如说部署了个京东,对吧京东的页面,我想让用户呢在外面能看到它,这个时候呢我通过哪几种方式可以把这个服务暴露出来?Ingress 的话可以吗?像 K8S 向外面暴露的方式有,他像你只说了刚才那一种, NodePort 的方式,是吧?嗯嗯。还有主机的网络一种。你在这里边那看来你没有做过这个向外面暴露。比如说在 Service 里面提供 Ingress 服务,这个东西听说过吧?你维护的这 K8S 里边的话,它这个 Pod 数多的话能达达到多少个呀?那比如说像 K8S 呢? K8S 对 Pod 的调度分布不均的话,知道怎么比如像那比如我想看看某个 Pod 呢,我发现它正在撞撞,能够看到 Pod 的那个状态, Running 呢还是 Pending 啊,对吧?如果发现这个状态呢是 Pending 了,这可能是什么原因说我想看一看,去里边看看日志,到底是因为啥。这个时候呢我用哪个命令可以?帮我过滤了一下里边的时间,这个不是 2026 年吗?我想过滤一下 2026 年 4 月份。像 Nginx 的话调试过吗?本身的配置文件里边的参数优化的话,你会做哪些?那个 CPU 线程数呢?lVS负载均衡的软件,你知道哪些?这个数据库的话,有接触过吗?像 MySQL 这些的话,你主要会接触它做的过哪些工作呀?那如果是主从同步这个做过是吧?那比如说主从复制的好处你知道有有能有哪些吗?那比如说像咱们这个数据库里边,你知道数据库的那个引擎,比如说 InnoDB 跟 MyISAM 吗?这个都听说过。MySQL 的数据库有在 K8S 里边搭搭建过吗那要持久化的话你是用什么方式做的呀?Ceph 这种存储物接触过吗?比如说我在 K8s 里边呢,我想看一看我这一,比如我的空间吧,可能有好多,我可能建了 A 空间、 B 空间、 C 空间,对吧? K8s 里边的空间,但是这个扯的是吧?嗯,就在这里边呢,我想看看我 A 空间里边的里边的所有的容器, CPU 和内存,这个的话能查你现在那个 Linux 上面,你常用的编程工具你用哪些啊?规划
我的求职进度条
点赞 评论 收藏
分享
开头正常自我介绍linux1.关于 Linux, 那 Linux 的话,你用哪?用过哪些发行版本?2.如何看 Linux 系统里面有多少个核吗?或者是这个硬服务器的一些那个 CPU 的信息呢?3.Linux 系统上面有哪些网络端口在处于监听状态呢?4.怎么统计一个文本文件的那个行数呢?Docker1.怎么看正在运行的 Docker 容器?镜像呢2.Dockerfile写过吗?3.我怎么进入容器内部呢?去看看一些容器的里面的信息?4.你有做过那个 Docker 镜像的一些操作吗?比如说我怎么把镜像导出来,然后再导到另外一个环境里面去?5.Docker的核心组件有哪些呢?k8s1.ETCD 在 K8S 里面起什么作用吗?2.那你知道 kube-controller-manage 它是做什么的?3.能说一下那个 Deployment 跟 StatefulSet  有什么区别?4.那 DaemonSet  它的作用是什么呢?5.service 有哪些类型呢?6.如果说一个pod,它处于一个失败的状态,那你有哪些手段去分析一下。7.ConfigMap 和 Secret它有什么作用呢?区别是什么?项目:1.Ansible 的使用2.这个监控的一些系统软件熟悉吗?你怎么用他们?3.你既然在开发这里用过Prometheus ,能说一下它,因为你它这个系统起来之后,它不可能说我去监控一个系统的时候,我要去手动去配置一下怎么去监控它,它应该有个自动发现的一个东西,这个自动发现的一个原理能说一下吗?4.用过Ceph吗,是怎么部署的?是几个节点?几个副本?5.讲一下 Jenkins 的功能总的来说这次面试问的问题也不太复杂,不过依然有问题还没回答出来;HR人很好,反问阶段还是因为经验不知,问的都是无关紧要的东西,继续加油吧!
查看21道真题和解析
点赞 评论 收藏
分享
评论
3
24
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务