4.7智谱华章一二面

一面:

感觉没问什么

像是被迫来面试我的

二面:

被拷打完了

1.这个skill是怎么测评的?(被说明做这个没有意义)

需要有一定的指标,比方说之前生产图片的质量不行,人为进行标注可利用率65%,之后调用完了可利用率到达80%作用,效果非常可观;具体指标这个得根据需求来说,需求覆盖哪些风格,哪些镜头,甚至一致性的,对应出一系列的测试集,可以人工评测也可以用模型去评,重点是评测数据结果。

2.最后用户的使用数据?

没有评测数据,也没有用户的使用数据,那你这个东西做了和没做有什么区别??命中率是如何提升的?

3.所做的任务对于命中率的贡献是多少?

4.工作有问题,对结果并不敏感,做了和没做一样。

反问:公司的评测标准是什么样子的?

根据需求和指标,设计不同的测试集,比方说我们要实现skill,一定是因为我们认为当前阶段用裸模型他没有办法完成我们的交付或者说是技术上的指标;

对于标准产品的话,我们其实会有一些自动化的方法,或者就是跑个评测的agent,然后我们认为评测的agent和我们人工标注对齐,就可以采纳使用了。

核心是评测,而不是评测办法,做一件事情一定是有指标的,去设计一些指标他能准确的评估你对做这件事情的价值。

感觉整场面试全是围绕着指标,感觉面试官讲的很有道理,感觉像是大手子哈哈哈哈

虽然被狠狠拷打了但也是学到了一些思想和方法

加油干吧

全部评论

相关推荐

昨天 17:45
门头沟学院 Java
一、自我介绍与项目深挖做一下自我介绍。简单讲一个你最有代表性的项目,你在其中解决的最关键问题是什么?结合实习或项目,做细节追问(工作流、职责、决策、挑战等)。二、Agent 与提示工程相关提示词模板是怎么设计与迭代的?你如何判断一个模板真的变好了?你们的 Agent 是单 Agent 还是多 Agent?为什么这么设计?有没有考虑过替代方案?Agent 的任务是怎么拆分的?拆分粒度是怎么决定的?上下文是如何构建的?你们怎么避免上下文过长或信息污染?如果上下文窗口不够,你会优先保留哪些信息?为什么?三、代码理解与单测生成(工程场景)做代码理解时,AST、调用关系这些信息是怎么用起来的?单测生成里,哪些代码不适合生成单测?你们是如何识别并过滤的?覆盖率高但测试质量很差,你见过吗?你们是如何解决的?mock 在单测里什么时候是必须的?什么时候反而会带来问题?如果一个函数同时依赖数据库和 RPC,你怎么让模型生成的单测稳定运行?你们如何评估生成单测的质量? 除了覆盖率,还有哪些指标有效?四、LLM 基础与 Transformer 细节LLM 的输入到底是什么?模型真正看到的内容包含哪些?self-attention 的核心作用是什么?为什么要拆成 Q、K、V?为什么 attention 能建模长距离关系?为什么需要 multi-head?attention 为什么可以看成动态加权?同一个 token 的 Q、K、V 为什么不相同?attention 复杂度很高,当上下文特别长时,你会怎么优化?模型产生幻觉的常见原因是什么?工程上有哪些方法可以降低幻觉?五、后端与系统基础Python 有多线程吗?GIL 是干嘛的?什么时候多线程才是有用的?讲一下 C++ 从源码到可执行文件的完整编译流程。六、算法题(手撕)给定一个数组 nums,计算所有子数组的中位数之和。定义:如果子数组长度为奇数:中位数 = 排序后中间的数。如果为偶数:中位数 = 排序后靠左的那个数。要求:计算所有子数组的中位数之和。
查看24道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务