因为老是有hr偷看我简历,然后老是搞推理框架和算子优化的,我决定从头学一遍并且总结出来。不搞芯片的不用学,这个吃学历和顶会的。也就是为什么我从一开始没搞这个,但是又收到了中科院和香港实验室之类的邀请。现在学好像有点晚了。。。。算啦,搞一下吧。然后其实你们看到的稿子都是我写剩下的,一般都是写好几篇到点就发的。本文需要先看了上期讲芯片的看了才容易点。那么正式开始吧,本文的话还是按照vllm举例,因为时间有限,我和你们的时间都有限,所以我只讲最简单,最通用的东西,第一点:基本上所有的推理优化都是优化Tensor Cores,第二点:其他的SM架构,cuda cores无法被优化,这个是硬件,vllm...