腾讯具身智能一面-难死我了
攒攒人品!
1.项目拷打
2.vision-language 对齐是 joint embedding 的?,那做了哪种对齐?有做 hard negative mining 吗
3.所有视角共享 encoder 吗?如何防止view collapse?
4.semantic space是如何保证cross-modal consistency的
5.用diffusion model做动作策略,是怎么建模action space的
6.如果多个diffusion模型组合,用了 gating 机制还是 uncertainty-aware ensemble?那 uncertainty 是怎么量化的?有对比过 epistemic 和 aleatoric 吗?
7.怎么防止action drift?有没有引入 consistency regularization或者temporal smoothness loss?
8.在surgical robotics里policy failure cost 很高,是怎么做risk-aware training 的?有没有加入 CVaR loss
10.模型泛化能力是靠数据多样性还是结构归纳偏置?能列出你设计中的 inductive bias 吗?对 unseen 手术任务怎么泛化
11.surgical scene 变化很大,怎么办
12.你说MAE 是做关键帧 reconstruction,那帧选择怎么做?具体打分逻辑是怎么样的
13.有没有做 token-level saliency analysis?你怎么知道模型真的关注了 surgical tool 而不是 background?
部署是在 ARM 上还是 X86?有没有模型并行?多线程和多进程各负责什么
14.做多模态感知融合时,视觉、语言、触觉(如果有)延迟不同,怎么对齐的
15.整个pipeline的E2E latency是多少?瓶颈在哪
你说中间用了 LQR,你 gain matrix 是 constant 吗?有没有做 gain scheduling?基于什么指标调的
16.控制系统稳定性你怎么保证?有没有做过 Lyapunov 函数证明
17.做过 trajectory optimization 吗?是基于 collocation 还是 direct shooting
18.假设你有个 policy 输出波动很大,你会考虑在 policy 层加高通滤波器还是在 loss 层加 penalty?为什么?
19.diffusion policy 是连续动作空间,那你是建模 joint distribution 还是 marginal
20.语言指令不是 deterministic 的,你们是直接用 language embedding 吗?有没有考虑language-conditioned latent variable model?
1.项目拷打
2.vision-language 对齐是 joint embedding 的?,那做了哪种对齐?有做 hard negative mining 吗
3.所有视角共享 encoder 吗?如何防止view collapse?
4.semantic space是如何保证cross-modal consistency的
5.用diffusion model做动作策略,是怎么建模action space的
6.如果多个diffusion模型组合,用了 gating 机制还是 uncertainty-aware ensemble?那 uncertainty 是怎么量化的?有对比过 epistemic 和 aleatoric 吗?
7.怎么防止action drift?有没有引入 consistency regularization或者temporal smoothness loss?
8.在surgical robotics里policy failure cost 很高,是怎么做risk-aware training 的?有没有加入 CVaR loss
10.模型泛化能力是靠数据多样性还是结构归纳偏置?能列出你设计中的 inductive bias 吗?对 unseen 手术任务怎么泛化
11.surgical scene 变化很大,怎么办
12.你说MAE 是做关键帧 reconstruction,那帧选择怎么做?具体打分逻辑是怎么样的
13.有没有做 token-level saliency analysis?你怎么知道模型真的关注了 surgical tool 而不是 background?
部署是在 ARM 上还是 X86?有没有模型并行?多线程和多进程各负责什么
14.做多模态感知融合时,视觉、语言、触觉(如果有)延迟不同,怎么对齐的
15.整个pipeline的E2E latency是多少?瓶颈在哪
你说中间用了 LQR,你 gain matrix 是 constant 吗?有没有做 gain scheduling?基于什么指标调的
16.控制系统稳定性你怎么保证?有没有做过 Lyapunov 函数证明
17.做过 trajectory optimization 吗?是基于 collocation 还是 direct shooting
18.假设你有个 policy 输出波动很大,你会考虑在 policy 层加高通滤波器还是在 loss 层加 penalty?为什么?
19.diffusion policy 是连续动作空间,那你是建模 joint distribution 还是 marginal
20.语言指令不是 deterministic 的,你们是直接用 language embedding 吗?有没有考虑language-conditioned latent variable model?
全部评论
相关推荐
iiooz:别想太多了,面试官如果看不上,就不会约面了,腾讯很少所谓的kpi,有面就说明能力肯定不错,只是每个面试官筛选方式不同,二面甚至只跟你聊生活的都有,鹅还是很开放的在筛选人这一块 点赞 评论 收藏
分享