8月2日网易笔试的故障说明
各位同学大家好,今天晚上网易内推笔试在牛客网举行,近2w人参与考试。
考试中途1.5小时编程判题几近不可用,事故报告如下:
牛客网根据前期压测数据预估需要120台判题机器,为了安全起见,我们部署了200台判题编译机器。然而由于我们的判题队列redis仅升级了一档到8G容量,最大2000连接数,而200台判题机器,每台机器默认配置的连接数10-40。链接总数超标导致部分判题机器连接redis失败,引起redis的连接数超标,进而影响原有的判题机读取编程题失败,这继续导致判题队列卡顿,最终导致200台部署的机器大部分空置,造成编程题判题无反应。
中途在修复redis队列的时候又由于要排队对前期卡顿的题目进行处理,导致延迟,最终在9点30分左右才恢复有效判题。
有同学题目自动提交也是由于redis连接数超了以后数据读取失败导致返回给前端错误数据让前端页面误认为考试已经结束,自动交卷了。
此次事件,影响大家的考试体验,向网易和同学们道歉。对不起。
我们会吸取教训,努力提升技术架构,希望有机会为企业和同学提供更好的服务,感谢有你们。
更多技术故障报告我们近日更新,大家有什么诉求欢迎留言,我们会传达给网易。
我们目前正在商议进一步补救措施和解决方案。有进度会第一时间通知大家。