太强了吧,请问这一题: 训练数据有问题如何检查出来 怎么检查呢,能想到的只有训练过程中某个 step 出现 loss spike 或者其他异常问题,有可能这个 batch 的数据有问题。 还有其他 before training 的方法吗?
点赞 3

相关推荐

#数据人的面试交流地##实习进度记录##数据人的面试交流地#作业帮时间是随机的,今天下午测的。作业帮是10道选择题加2到算法题:选择题:考了数据结构排序二叉树,linux命令:awk '$NF' test 这里的test是一个有多行数据的文件,这命令是输出该文件末行的内容。还考了mapreduce优化数据倾斜的办法这里我好像选错了有两个选项一个是把count(distinct ) 替换为sum()group by 还有是将小文件先保存到内存中这两个好像是对的都可以优化数据倾斜此问题。还考了Flink的一些特性不过我还没学过flink,还考了kafka的高性能和低性能的一些问题,这我也是一脸懵。还考了六个盘的汉洛塔要移动几次才通过。然后是算法题,第一个是简单的二分查找,不过我只通过了94%,后面看估计是我对左右指针移动还是有点问题。第二个是leetcode32题,最长有效括号,可惜了我两个月前还写过但是还是没写对,只通过了63%。也不知道能不能过。阅文(寄了,以为是8.30考没想到是8.30结束结果只写了20分钟):这好像是前面是单选题,中间是不定项,后面是问答题单选题:考了hive内置函数,考了hive与spark的对比,hadoop节点默认备份是多少~(还考了斗破苍穹的主角是谁虽然我没看过印像中好像叫萧炎)不定项:有mysql中delete,drop和truncate这三者的区别特点(我对truncate完全没印象),还考了flink的一些知识。问答题:第一个是mapredce工作流程这个还好,第二个是如何解决spark数据倾斜的方法。这里时间不够了我一点没写,也没多少印象。这里我现在写一下加深点印象1.可以增加随机前缀或后缀:来打散数据分布,在后继计算中去除前后缀从而负载均衡2.广播小表,如果是原因是小表与大表join可以将小表广播到每个节点,避免产生数据倾斜。3.salting方法:为倾斜数据填加盐值,打散倾斜数据4.分区策略调整:通过自定义分区器或者合理选择内置分区器来均匀分布数据5.增大并行度:针对只有少量数据造成的倾斜任务,增加并行度可以更快地处理这些小任务6.数据预处理:合并一些小文件,fliter操作等第三四个就是写sql语句,第三个挺简单的就是第四题来不及看了。ok就是这些了,预祝大家都能找到自己想要的工作实现,我还是继续去沉淀去了,这一个月也不知道自己在忙些啥好像就是一直在刷算法题和sql题,八股都没怎么看,对组件的掌握还是太浅了。#实习##数据开发工程师实习##暑期实习加油##牛客AI配图神器#
查看14道真题和解析 投递阅文集团等公司6个岗位 数据人的面试交流地
点赞 评论 收藏
分享
04-29 10:00
已编辑
电子科技大学 算法工程师
从3.8号开始投简历,整个3月只零星收到几场面试,而且前几场都面挂了,整个人就陷入了很大的焦虑中。不过从清明之后面试就多了起来,基本上每天都有两到三场面试,面试通过率也增加了很多。整体面下来的感受就是,一定要对简历上的内容了如指掌。一是要能完整的讲清楚自己做的工作,二是能经得起问。手撕基本上把hot100刷个两三遍就能应对大部分的面试了。算法八股基本上没被问过,主要还是问简历。附一个timelineOC:小红书多模态:3.26投递,3.28一面,4.7二面,二面完当天oc高德大模型:3.24投递,4.3一面,4.10二面,4.14oc京东风控:3.9投递,4.7一面,4.9二面,4.14三面,4.16octemu搜推:3.16投递,3.29一面,4.2二面,4.11三面,4.18hr面,现在还在排序。微信搜索:4.10一面,4.14二面,4.21面委会面,4.23hr面,4.27oc。二面挂:微信安全:3.8投递,3.20一面,3.25二面,半小时秒挂。阿里达摩院:3.24投递,4.7一面,4.14二面,第二天挂一面挂:抖音搜索、剪映推荐、阿里云(连挂三轮)、淘天、快手大模型主动结束流程的:作业帮:4.1一面,4.9二面黑翼资产:4.2一面,4.9二面百度智能云:4.3一面,4.25二面快手广告:4.8一面,4.25二面,当天面试官加微信问意向,wxg oc后拒优酷:4.15一面,4.21二面字节风控:4.15一面,4.21二面,4.23三面,4.28hr面泡简历:b站、oppo、蚂蚁、饿了么、虾皮
点赞 评论 收藏
分享
05-08 17:04
已编辑
浙江大学 算法工程师
面试问题:- (针对简历提问)你工作里主要关注哪些指标?解释一下AUC含义、计算和作用- 主流的开源大模型结构有哪些?(prefix decoder,casual decoder、encoder-decoder)- 介绍一下layernorm和batchnorm的区别?- 在机器学习里,怎么处理长尾数据和多峰数据?- 怎么解决模型的冷启动问题,你觉得LLM在冷启动方面能够起到什么作用?- 介绍一下常见的优化算法(SGD ->Adagrad ->RMSProp ->Adam -> AdamW)?优缺点- 为什么Adam不一定最优而SGD最优的?怎么理解分析?- (针对简历提问)你工作里的对比损失是怎么构造的,有什么作用?介绍常见的对比损失的公式。代码题:- 数组第K大。给定整数数组 nums 和整数 k,请返回数组中第 k 个最大的元素。(力扣215原题)- 手写对比损失的计算(结合项目),并简单说了一下原理。(大概写出来就好)二面我这个是交叉面,提问的有部分设计大模型,也当然我简历上有大模型,所以问了一些llm+搜推的内容,但这部分交叉问题比较浅,能说个大概就很好,同时也有很多经典的机器学习面经问题。因为项目里提到了对标学习,所以面试官在代码考核部分让我写个示例,所以写进简历的一定要准备好(包括流程步骤,代码实现大概要清楚)。面广告算法的岗位,机器学习面经暴率很高,建议熟背,就算是看过有印象,问到的时候也会基本很稳。#面试问题记录#
点赞 评论 收藏
分享
牛客网
牛客企业服务