1、自我介绍2、项目介绍3、介绍 NLP 中数据增强方式NLP 中常见的数据增强方式主要有同义词替换、随机插入、随机删除、随机交换、回译、模板扩写、噪声注入、对抗样本增强和基于大模型的数据改写。同义词替换是把句子中的部分词替换成语义相近的词;随机插入和删除适合做轻量扰动;随机交换适合增强模型对局部顺序变化的鲁棒性;回译是把句子翻译成另一种语言再翻回来,能够保留大意但改变表述;模板扩写适合分类和信息抽取任务;噪声注入比如加入错别字、空格、标点变化,适合提升鲁棒性;对抗样本增强更偏训练阶段优化;现在更常见的是让大模型做改写、扩写、同义表达生成。数据增强不能只追求数量,更重要的是标签一致性和语义不偏...