面试官状态很好,思维活跃问了deepspeed zero,zero 1 2 3 的区别?模型显存占用大小,全参微调 32B 要占多少显存?sft 全参和lora的区别,什么时候用全参,什么时候用lora,lora的rank是什么意思,有什么用grpo是on policy还是off policy的?grpo 和 gspo的区别?做题超时删除,一个类,init(),get(key) value,set() key value 存下来 import timeclass TimeCacheDict: ''' ''' def __init__(self,expire_time:int): self.ca...