1,讲讲多头注意力机制中,MLA,MQA,GQA在ai陪聊中哪个效果更好,各有什么优缺点。2,哪个KVcache优化效率更高?3,python的多进程和多线程你怎么理解(GIL锁)4,python的多进程通信,一个leader多个worker,加个5分钟超时机制,怎么设计超时控制,进程通信,worker死锁了怎么办。5,Mysql的B+树为什么这么设计结合操作系统以及计算机组成来讲解,现在是固态盘了,怎么改善?如今写入1bit和4MB的io时间是一样的,那我应该怎么设计?查询如何优化?之前的叶子节点太多了,你提到可以把小数据放在缓存里面,那查询怎么优化呢?利用mapreduce的思想来做?LSM树?(没听懂是不是这个)6,flink如何解决有的事件先到有的事件后到,回答:水印标记乱序复杂度,窗口,按事件分组处理。