备战春招之商汤大模型一面
token 怎么 tokenizer ,怎么embedding的
词表是怎么训练的?
tokenizer是怎么tokenizer的?
添加新的token怎么加,怎么训练呢,词表会偏移吗?
llava的数据的输入输出是啥样的,整个数据的流程
GRPO有没有遇到什么问题,怎么解决
领域SFT数据损害模型的通用性能吗,怎么解决。1、加通用数据 2、model merge
怎么merge,怎么加通用数据?
手写ViT MHA
多头是怎么切分的?
手撕矩阵孤独岛屿,DFS
反问