[问答题] 给我讲讲你设计的大模型后训练流程:对齐数据怎么构造?奖励建模如何评测?在线/离线评测各怎么做?