1.介绍下你的DeepReseach的架构2.项目是怎么实现human in loop的3.讲一下异步同步和并发并行的区别4.搜索的ReAct过程是怎么样的5.Agent搜索有遇到什么问题,怎么解决6.如何提升搜索的速度7.讲一下VLLM的原理8.你知道Flash Attention原理吗9.讲一下你说的这个R1-V的Qwen2.5VL多模态几何题优化过程10.你的训练平台和显卡配置是多少11.讲-下Advantage Actor-Critic12.讲一下PPO的clip函数,clip是梯度裁剪吗13.讲一下重要性采样14.讲一下PPO和GRPO的区别15.如果要用强化学习实现DeepResearch的优化搜索工具调用可以怎么实现,从数据构造到损失函数到奖励设置16.你有了解最新的一些工作吗?比如miromind,Qwen3-Next,deepseek的mHC流形约束超连接.17.手撕二叉树的奇数节点个数