发点面经攒攒人品~1.coding agent能力2.实习处理文本数据还是数值型数据3.文本分析竞赛经历 jieba分词 Lda模型4.如何对超长 多段结构复杂的agent日志数据根据代码任务类型进行分类打标签 生产代码/教学代码/测试运维代码5.thinking input output 工具调用 执行效率等等六个维度来搭建一套可对比可量化的指标体系6.Embedding模型7.大模型/小模型训练经验8.预训练数据处理流程9.小模型训练特点10.如果对于一个教学级代码想要打标签如何进行11.何采取比较通俗的语言说服质检或者数据部的人接受你的指标或者标签分级12.当日志量比较大的情况下采取什么样的统计学方法能够以尽量少的样本使得不丢失过多信息