1、自我介绍2、项目介绍3、离线数据处理咋做的离线数据处理我一般会按“采集、清洗、标准化、切分、标注、校验、入库”这条链路来做。先把多来源数据接进来,比如文档、表格、对话日志、接口结果、历史工单,然后做编码统一、去重、去噪、脏字段修复和无效样本过滤。对于文本类数据,还要做特殊符号清理、HTML 去标签、分段切分、敏感信息脱敏和元信息补全。如果是训练数据,还会进一步做 schema 对齐,比如统一成 instruction / input / output,或者统一成多轮消息格式 messages=[{role, content}]。如果是 RAG 知识数据,就会做 chunk 切分、标题挂载、...