腾讯实习-光子工作室群-客户端开发(具身智能方向)一面+二面+HR面面经 已oc

一面7.24

1.简单自我介绍

2.有没有大体量模型部署/调优经验?看你简历里都是小模型? 答:没有

3.这边看你使用了tensorrt,有没有遇到爆内存的情况? 答:没有,因为用的yolo模型也是小体量

4.你在边缘段部署模型的时候,如果遇到算力不足的情况,怎么解决?有没有尝试过模型调优?如果量化,量化后导致的精度问题如何解决? 答:尝试过量化,量化后再做微调解决量化导致的精度问题。

5.你的实体机器人有没有尝试去跑公开的benchmark数据集? 答:没有,主要适配学校本地场景。

6.你的实体机器人有没有遇到过数据不同步的情况?比如机械臂压力传感器信息已经获取了,但是视觉信息还未捕捉到抓取动作?如何调优? 答:没有深入做过机械臂相关,不过我给出的方案是两边设备做通讯,当遇到不同步情况时抛出异常,让两边线程停止,同步后再继续执行。 面试官给出建议:如果持续开启同步,可能会浪费很多性能,因为同步只有在发生异常时才起到作用,实际可行思路是对两边信息进行预测,与其等信息到齐再同步,不如基于已有的信息做时间插值或状态预测,提前“推测”另一方的状态,以实现更平滑、高效的控制。

7.RAG系统中,你的数据是如何存储在数据库中的?用的算法是自研的吗?在问答时有没有遇到过RAG生成模型幻觉问题(可能始终只围绕提供的材料进行问答,而无法跳出材料)? 答:通过视觉语言大模型进行PDF-Page向量化并存入数据库,算法不是自研,是基于已有框架二次开发。问答出现幻觉说明系统没有加入保底机制,认为所有问题都能在知识库中找到答案,需要对输入问题进行预处理,剔除不相关问题。

8.KCF优化怎么做的?

9.看你有VLA Zeroshot模型的训练部署经验,你是如何去做部署调优的? 答:我们项目中可能不算zeroshot,我们实际上是在同一栋办公楼中去拍摄第一人称的行走视频,并人工标注对应时间序列上的行为决策,将其作为训练数据训练大模型,再在其他未被作为数据集拍摄的场地去做测试。对应的上层决策和我的底层执行基元作适配即可(比如视频里是人移动,实际是小车移动,移动方式不同但决策/轨迹相同)。但实际测试下来,对于室内复杂位置环境的主动探索效果并不好,因此并没有落地。

反问:岗位时客户端开发,实际是具身智能方向,具体是做哪方面的应用? 答:客户端开发是个很大的分支,有很多子分支,具身智能是其中之一,主要做游戏相关内容向实体机器人迁移,利用实体机器人收集数据等。

二面7.25

1.简单自我介绍

2.项目中提到的机器人硬件系统都是自己搭建的吗? 答:除了移动底盘是直接购入的,其余硬件都是自己搭建(上位机、电源、雷达、相机、麦克风等)

3.人机交互系统是怎么搭建的?交互的方式是什么?用了什么语音合成、语音转文字模型? 答:交互平台放在网页端,可以通过移动端交互,解决复杂环境下机器人不好收音的问题。模型用的两个国外开源小模型。与机器人移动相关的数据通过ROS2 DDS通信,交互部分通过Python HTTP。

4.看你做过VLA任务,你的做法是什么? 回答=一面

5.讲一下ROS2的结构特点

6.你对C++了解程度怎么样? 回答是能阅读代码,然后上来就是两个底层问题,直接昏迷没答出来。

7.讲一下A*算法

8.有一个哈希表,每个哈希值对应一个QQ号,现在我有一个新的QQ号需要进库,我想判断这个QQ号在库中有没有重复,怎么做? 答:直接计算QQ号的哈希值,没有哈希冲突复杂度O1,有就遍历链表,最坏情况On

9.你知不知道悟空机器人?有没有了解过机器人模块化编程用于助教?答:没了解过悟空机器人,没有做过模块化编程助教的工作,不过当前机器人的控制都是基元化,可以理解为让大模型辅助去做模块化编程,拼接基元完成复杂任务。

反问:岗位是做什么的? 答:整个大部门有很多分支,引擎开发、建模绘图等生产力工具改进、AI等,具身智能是近期新开辟并准备探索的领域。

HR面8.4

1.核实了一下岗位具体业务,腾讯不做实体机器人,好像是XR相关的

2.实习时长

3.实习期望接触的研究方向

8.5转评估,许愿oc

8.20oc base深圳

全部评论
请问腾讯还有哪些团队做具身呢
点赞 回复 分享
发布于 2025-11-17 15:42 天津
你好这是校招吗?感觉和客户端没啥关系
点赞 回复 分享
发布于 2025-09-01 16:08 北京
光子还有做具身智能?
点赞 回复 分享
发布于 2025-08-01 09:59 广东

相关推荐

攒攒人品! 1.项目拷打2.vision-language 对齐是 joint embedding 的?,那做了哪种对齐?有做 hard negative mining 吗3.所有视角共享 encoder 吗?如何防止view collapse?4.semantic space是如何保证cross-modal consistency的5.用diffusion model做动作策略,是怎么建模action space的6.如果多个diffusion模型组合,用了 gating 机制还是 uncertainty-aware ensemble?那 uncertainty 是怎么量化的?有对比过 epistemic 和 aleatoric 吗?7.怎么防止action drift?有没有引入 consistency regularization或者temporal smoothness loss?8.在surgical robotics里policy failure cost 很高,是怎么做risk-aware training 的?有没有加入 CVaR loss10.模型泛化能力是靠数据多样性还是结构归纳偏置?能列出你设计中的 inductive bias 吗?对 unseen 手术任务怎么泛化11.surgical scene 变化很大,怎么办12.你说MAE 是做关键帧 reconstruction,那帧选择怎么做?具体打分逻辑是怎么样的13.有没有做 token-level saliency analysis?你怎么知道模型真的关注了 surgical tool 而不是 background?部署是在 ARM 上还是 X86?有没有模型并行?多线程和多进程各负责什么14.做多模态感知融合时,视觉、语言、触觉(如果有)延迟不同,怎么对齐的15.整个pipeline的E2E latency是多少?瓶颈在哪你说中间用了 LQR,你 gain matrix 是 constant 吗?有没有做 gain scheduling?基于什么指标调的16.控制系统稳定性你怎么保证?有没有做过 Lyapunov 函数证明17.做过 trajectory optimization 吗?是基于 collocation 还是 direct shooting18.假设你有个 policy 输出波动很大,你会考虑在 policy 层加高通滤波器还是在 loss 层加 penalty?为什么?19.diffusion policy 是连续动作空间,那你是建模 joint distribution 还是 marginal20.语言指令不是 deterministic 的,你们是直接用 language embedding 吗?有没有考虑language-conditioned latent variable model?
查看21道真题和解析
点赞 评论 收藏
分享
03-04 01:37
算法工程师
bg: 985本硕。现在主要研究视频生成,之前做过3d/4d、多模态(和推荐相关)。3个offer:1. 字节广告算法,1-2,n*15+3w期权。优点:字节的广告算法行业内应该算top级别,团队leader人也非常好。缺点:和个人背景没有那么匹配,也没有那么感兴趣,2. 卓驭科技(前大疆车载)多模态大模型(视频生成、vla等方向),(n+10k)*(12-17)。优点:薪资确实比字节高很多,方向也喜欢,个人觉得智驾和具身智能未来发展空间很大,哪怕未来智驾和具身未来不行,应该也可以跳槽到别的行业,毕竟做大模型的。缺点:强度应该比字节稍大,其他福利待遇比字节差一些,年终奖无保底(hr说绝大部分都能拿到4个月年终奖),公司在智驾行业不算第一梯队,网上信息也比较少,不清楚到底咋样,未来稳定性、业务发展、行业认可度(据hr说公司员工跳槽出去,行业认可度很高)等都不太清楚,但是看算法团队硕博比例很高,人才密度比较高,技术水平应该也还行。3. 华为2012实验室ai多模态(软件特战队),15a,40-50w。hr说进去之后会根据个人意愿匹配到对应的项目组,但是看网上有人说这个很坑,进去之后随便分,看运气,都是做算子开发的。面试过程也几乎没怎么问ai算法相关的,感觉面试官根本不懂ai算法。暂时不考虑华为了。求帮选,或者给些建议和信息,感谢。
校招薪资来揭秘
点赞 评论 收藏
分享
评论
3
13
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务