【八股文-机器学习】非平衡数据集的处理方法

采用更好的评价指标，例如F1、AUC曲线等，而不是Recall、Precision
进行过采样，随机重复少类别的样本来增加它的数量；
进行欠采样，随机对多类别样本降采样
通过在已有数据上添加噪声来生成新的数据
修改损失函数，添加新的惩罚项，使得小样本的类别被判断错误的损失增大，迫使模型重视小样本的数据
使用组合/集成方法解决样本不均衡，在每次生成训练集时使用所有分类中的小样本量，同时从分类中的大样本量中随机抽取数据来与小样本量合并构成训练集，这样反复多次会得到很多训练集和训练模型。最后在应用时，使用组合方法（例如投票、加权投票等）产生分类预测结果；

全部评论

推荐最新楼层

04-16 19:50

已编辑

门头沟学院 GIS工程师

阿里云—4.16—暑期实习一面（从今以后阿里就是梦中情厂

面试官人超好，最后主动给我讲了面试反馈建议，全程没有问八股，都是问的技术选型/ai发展等等，收获巨大，早点上次的阿里国际也去面面了（被我睡过头鸽掉了）秋招一定再冲一下阿里简单做一下自我介绍。为什么要做 RAG 知识库这个项目？项目技术选型为什么选用 MySQL、Redis、Kafka 这些组件？除了 ES 做向量检索，还了解其他实现方案吗？做 RAG 链路，社区有没有其他现成 / 流行的方案，有没有做过调研？项目中比较有挑战的地方是什么？数据清洗、日期提取这个问题是怎么发现的？为什么不自己部署一个模型，而是用 DeepSeek API？会结合实时检索内容发给大模型吗？是模型自身检索还是 age...

查看23道真题和解析

点赞评论收藏

04-18 21:37

广西大学算法工程师

京东 AI Agent开发一面

1. 自我介绍2. RocketMQ 里顺序消息、普通消息、事务消息分别适合什么场景，为什么不能混着用普通消息适合最终一致、无严格顺序约束的场景，比如日志分发、画像更新、通知投递。顺序消息适合同一业务键必须按时间线推进状态的链路，比如同一工单、同一订单、同一会话的状态演进，但顺序消息的吞吐和容错设计会受到队列粒度限制。事务消息适合本地事务与异步投递之间要建立“发送承诺”的场景，比如主库先落事实，再由 MQ 推动旁路索引或下游补偿。三者不能混着用，是因为它们解决的问题不同，消费模型、失败恢复方式和成本模型也完全不同。3. 如果 RocketMQ 出现消息积压，你会怎样定位，不要只说“扩容消费者”...

AI-Agent面试实战...

点赞评论收藏

03-23 14:37

华南师范大学前端开发其它

27本前端简历求修改

各位大佬们，可以帮忙看看我的简历有没有什么问题嘛，想投中厂的前端开发实习

老树开花：可以开始投了，不用等到觉得完全准备好。一边投一边根据面试反馈改简历是最高效的方式。简历上项目描述建议突出你解决的具体问题，比如编辑器的性能优化、大文档渲染怎么处理的，而不只是列技术栈。中厂前端实习现在竞争确实激烈，建议同时关注一些有AI业务的团队，前端加AI应用是很有差异化的组合。Vue全家桶基础扎实的话可以往SSR或者跨端方向延伸，这些是面试加分项。加油，时间还来得及。

点赞评论收藏