发一下问题给大家参考,攒攒人品!1. 基础架构与熟悉度• 你对 UniVLA 这个架构熟悉吗?• UniVLA 的 late action model / 潜在动作模型 是怎么搭建的?(VQ-VAE 部分的逻辑)• 你们这个架构非常大,你在其中承担哪些工作?2. 训练范式与数据设计• 你们的 subtask 是怎么标注时间段的?(开始/终止时间标注规则)• 你们任务编码的 prompt 是给的拆解后的 prompt 吗?是怎么给的?• 你们自己给 action 打了标签吗?• 你们 SFT 调的是 7B 的 perspective 模型吗?两个 SFT 都调的是这个 7B 模型?• 你们的数据量跟模型参数分别是多大?latent action 的参数量是不是只有 1–2B?3. 技术细节与优化• Pi 0.5 有看过吗?它有什么改进?• 看过 real time chunking(RTC)吗?• 复现的 py 结果有慢跟抖动,有没有考虑过后处理的方式?• 提速有什么方式吗?• 桌面高度是一定的吗?• 对深度感知要求高的任务(scanning/inserting),是不是可以加额外的措施?有没有考虑过?• 你们的训练计算资源是什么情况?二、算法与技术路线类1. 算法题• 输入整数数组和整数 limit,找到最长的连续子数组,使得子数组中任意两个元素的绝对差不超过 limit,返回子数组长度例:[8,2,4,7,2,4,7,8,2,4,7,8,2,4,7],limit=4 → 输出 22. 技术路线与选型• 目前视频预测模型为结构模型的方案、world model 相关工作怎么看?• 你们的技术路线,对机器人全身控制会做类似 UniVLA / VLA 的工作吗?