4.7智谱华章一二面
一面:
感觉没问什么
像是被迫来面试我的
二面:
被拷打完了
1.这个skill是怎么测评的?(被说明做这个没有意义)
需要有一定的指标,比方说之前生产图片的质量不行,人为进行标注可利用率65%,之后调用完了可利用率到达80%作用,效果非常可观;具体指标这个得根据需求来说,需求覆盖哪些风格,哪些镜头,甚至一致性的,对应出一系列的测试集,可以人工评测也可以用模型去评,重点是评测数据结果。
2.最后用户的使用数据?
没有评测数据,也没有用户的使用数据,那你这个东西做了和没做有什么区别??命中率是如何提升的?
3.所做的任务对于命中率的贡献是多少?
4.工作有问题,对结果并不敏感,做了和没做一样。
反问:公司的评测标准是什么样子的?
根据需求和指标,设计不同的测试集,比方说我们要实现skill,一定是因为我们认为当前阶段用裸模型他没有办法完成我们的交付或者说是技术上的指标;
对于标准产品的话,我们其实会有一些自动化的方法,或者就是跑个评测的agent,然后我们认为评测的agent和我们人工标注对齐,就可以采纳使用了。
核心是评测,而不是评测办法,做一件事情一定是有指标的,去设计一些指标他能准确的评估你对做这件事情的价值。
感觉整场面试全是围绕着指标,感觉面试官讲的很有道理,感觉像是大手子哈哈哈哈
虽然被狠狠拷打了但也是学到了一些思想和方法
加油干吧
查看24道真题和解析