文远知行 26校招凉经

很珍惜和L4的公司交流的机会,wenyuan的面试也确实是近期强度最大的之一。

我应该是最早面一面的一批了,之后又隔了很久约上二面,还是没有在拷打中存活下来。两面都是从项目出发聊,从数据到模型到训练全方位问一遍,也会问相应涉及到的基础知识,最后写一道题。

一部分被问到的问题包括:

CLIP相关:
1. 为什么用余弦相似度,而不是L1或L2
2. 损失函数的公式
3. 如果要将focalloss的思想引入,应该怎么设计

Transformer相关:
1. 注意力
2. ViT怎么将注意力用于视觉
3. 如何处理变长输入
4. 位置编码的过程,图像patch的位置如何做位置编码

手撕 一次是lc中等题(矩阵的最大得分),一次似乎不是原题不过比较简单
#发面经攒人品#

------ 如果有帮助的话求佬们点一下送花 ------
全部评论
第1个问题的回答思路是什么呀
点赞 回复 分享
发布于 2025-09-04 10:47 湖南

相关推荐

04-09 17:45
门头沟学院 Java
一、自我介绍与项目深挖做一下自我介绍。简单讲一个你最有代表性的项目,你在其中解决的最关键问题是什么?结合实习或项目,做细节追问(工作流、职责、决策、挑战等)。二、Agent 与提示工程相关提示词模板是怎么设计与迭代的?你如何判断一个模板真的变好了?你们的 Agent 是单 Agent 还是多 Agent?为什么这么设计?有没有考虑过替代方案?Agent 的任务是怎么拆分的?拆分粒度是怎么决定的?上下文是如何构建的?你们怎么避免上下文过长或信息污染?如果上下文窗口不够,你会优先保留哪些信息?为什么?三、代码理解与单测生成(工程场景)做代码理解时,AST、调用关系这些信息是怎么用起来的?单测生成里,哪些代码不适合生成单测?你们是如何识别并过滤的?覆盖率高但测试质量很差,你见过吗?你们是如何解决的?mock 在单测里什么时候是必须的?什么时候反而会带来问题?如果一个函数同时依赖数据库和 RPC,你怎么让模型生成的单测稳定运行?你们如何评估生成单测的质量? 除了覆盖率,还有哪些指标有效?四、LLM 基础与 Transformer 细节LLM 的输入到底是什么?模型真正看到的内容包含哪些?self-attention 的核心作用是什么?为什么要拆成 Q、K、V?为什么 attention 能建模长距离关系?为什么需要 multi-head?attention 为什么可以看成动态加权?同一个 token 的 Q、K、V 为什么不相同?attention 复杂度很高,当上下文特别长时,你会怎么优化?模型产生幻觉的常见原因是什么?工程上有哪些方法可以降低幻觉?五、后端与系统基础Python 有多线程吗?GIL 是干嘛的?什么时候多线程才是有用的?讲一下 C++ 从源码到可执行文件的完整编译流程。六、算法题(手撕)给定一个数组 nums,计算所有子数组的中位数之和。定义:如果子数组长度为奇数:中位数 = 排序后中间的数。如果为偶数:中位数 = 排序后靠左的那个数。要求:计算所有子数组的中位数之和。
查看24道真题和解析
点赞 评论 收藏
分享
评论
5
6
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务