大模型手撕代码合集
1. Tokenizer
从零手撕 BPE 训练 Tokenizer ·从零手撕 Tokenizer 解码
2.位置编码
绝对位置编码
旋转位置编码( RoPE )
长度外推技术
3.注意力机制
Multi Head Attention ( MHA )
Multi Query Attention ( MQA )· Group Query Attention ( GQA )
Multi Head Latent Attention ( MLA )
4.前馈网络
FFN ( ReLU )
FFN ( GeLU )
SwiGLU
5.归一化技术
LayerNorm
RMSNorm
BatchNorm
6.损失函数与度量
交叉熵损失函数
对比学习损失函数
信息论度量
7.其他
用 Numpy 从零实现 MLP 反向传播●用 Numpy 实现 K - means 算法
实现 Transformer Encoder
Safe Softmax
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
从零手撕 BPE 训练 Tokenizer ·从零手撕 Tokenizer 解码
2.位置编码
绝对位置编码
旋转位置编码( RoPE )
长度外推技术
3.注意力机制
Multi Head Attention ( MHA )
Multi Query Attention ( MQA )· Group Query Attention ( GQA )
Multi Head Latent Attention ( MLA )
4.前馈网络
FFN ( ReLU )
FFN ( GeLU )
SwiGLU
5.归一化技术
LayerNorm
RMSNorm
BatchNorm
6.损失函数与度量
交叉熵损失函数
对比学习损失函数
信息论度量
7.其他
用 Numpy 从零实现 MLP 反向传播●用 Numpy 实现 K - means 算法
实现 Transformer Encoder
Safe Softmax
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
相关推荐
急行电牛:我笔试交白卷都约面了,三道题A了0道
点赞 评论 收藏
分享