字节 运维外包 面经
一、EFLK 日志系统
- EFLK架构介绍与角色请解释EFLK架构及其组件作用。你在该系统的部署和维护中扮演什么角色?
- 安装与部署环境准备有哪些硬件资源要求?请描述安装各个组件的标准步骤。
- 配置管理如何配置Elasticsearch集群(如集群名称、节点角色)?如何优化Filebeat和Logstash的配置(如batch_size、grok模式)?如何配置Kibana仪表盘?
- 监控与维护监控Elasticsearch哪些性能指标?如何监控?如何监控Filebeat、Logstash和Kibana的运行状态?遇到节点宕机、索引损坏、管道阻塞等故障时如何处理?
- 安全管理如何实施访问控制(用户角色与权限分配)?如何保证数据传输和存储的安全?请描述Elasticsearch的备份策略。
二、数据分析
- 分析的数据类型主要分析哪些用户数据?(如登录信息、课程访问、学习行为、互动记录、系统错误等)
三、故障处理与排查
- Elasticsearch集群故障遇到过哪些ES集群故障?(如硬件、网络、索引损坏、性能下降、数据丢失、插件兼容性等)
- Filebeat数据丢失排查如何排查Filebeat数据丢失问题?(检查配置、日志、接收端状态、网络等)
四、监控指标
- 日志系统指标EFLK系统中各组件(Filebeat, Logstash, Elasticsearch, Kibana)需要监控哪些指标?
- Linux主机监控监控Linux主机需关注哪些指标?(CPU、内存、磁盘、网络、进程、服务状态等)
- Nginx监控监控Nginx需关注哪些指标?(请求数、连接数、状态码、缓存、资源使用率等)
- PV监控与异常排查如何监控PV?若PV或UA突然下降,如何排查?(检查Exporter、Nginx、业务功能、配置等)
五、协作与沟通
- 跨部门沟通如何与开发、测试、业务部门高效协作?需要注意什么?
- 新功能上线沟通如何与开发沟通新功能上线?从系统维护角度需考虑哪些方面?(资源、架构、监控、安全等)
六、容量规划与资源管理
- 资源评估与扩容若流量增加两倍,如何评估需要添加的机器数量?(基于资源使用率、性能指标、测试验证等)
- CPU利用率分析CPU利用率多高算过高?利用率过低应如何排查和解决?
- Kubernetes HPA什么是HPA?请结合实际场景描述其使用方法。
- 集群规模你们集群有多少机器和Pod?
- Pod服务类型Pod上运行哪些服务?(如课程、学习记录、作业、用户认证、监控等服务)
- Pod扩缩容如何实现Pod的手动和自动扩缩容(HPA)?
- Pod缩容注意事项缩容时需注意哪些问题?(避免服务中断、数据持久化、流量控制、资源释放等)
- 资源优化实践你做过哪些节省资源的操作?(CPU、内存、磁盘、网络等方面的优化)