1. 你做过大模型数据处理的话,预训练数据清洗一般怎么做,去重、去噪、质量过滤分别解决什么问题?预训练数据清洗本质上是在控制“数据量”和“数据质量”之间的平衡。去重主要解决模型反复记忆同一批内容,避免浪费训练 token,也减少 benchmark 污染。去噪主要是过滤乱码、模板页、广告页、低信息密度文本、机器生成垃圾内容,不然模型会学到很差的语言模式。质量过滤更偏向保留高价值内容,比如结构完整、语义通顺、知识密度高、代码块规范或者问答对明确的数据。实际工程里一般不会只靠一个规则,而是多阶段处理:先做规则清洗,再做语言识别、长度过滤、内容打分,最后再结合 dedup 和采样策略。因为预训练效果...