Q1:大模型是怎么让生成的文本丰富而不单调的呢?答案:从训练角度来看:基于Transformer的模型参数量巨大,有助于模型学习到多样化的语言模式与结构;各种模型微调技术的出现,例如P-Tuning、Lora,让大模型微调成本更低,也可以让模型在垂直领域有更强的生成能力;在训练过程中加入一些设计好的loss,也可以更好地抑制模型生成单调内容;从推理角度来看:基于Transformer的模型可以通过引入各种参数与策略,例如temperature,nucleus samlper来改变每次生成的内容。Q2:什么情况用Bert模型,什么情况用LLaMA、ChatGLM类大模型,咋选?答案:Bert 的...