Resources
pytroch
童哥指定NLP学习路线
[x] 如何自己从零实现一个神经网络?
[x] 秒懂词向量Word2vec的本质
[x] ResNet论文逐段精读
[x] BERT 论文逐段精读
[x] [GPT文章解析](https://medium.com/@sntaus/understanding-self-attention-gpt-models-80ec894eebf0)
VLLM
[x] VLLM论文
[ ] VLLM官方文档
[x] VLLM推理流程梳理(一)
[x] [VLLM推理流程梳理(二)](https://zhuanlan.zhihu.com/p/649977422)
transformer
PEFT
- [ ] LLM从0到1之PEFT
Mamba
to be continue
DeepSpeed-流水线系列
- [ ] deepspeed入门教程
- [ ] LLM(十二):DeepSpeed Inference 在 LLM 推理上的优化探究
- [ ] DeepSpeed 流水线实战
- [ ] DeepSpeed Pineline文档1
- [ ] [DeepSpeed Pineline文档2](https://deepspeed.readthedocs.io/en/latest/pipeline.html)
ML-system入坑指南
图解大模型训练系列
分布式训练技术分享系列
大模型分布式训练并行技术
《从零实现BERT、GPT及Diffusion类算法》系列
[ ] 《从零实现BERT、GPT及Diffusion类算法》- 3:Multi-head Attention & Transformer
[ ] 《从零实现BERT、GPT及Diffusion类算法》- 5:Greedy Search, Beam Search, Penalty, Sampling
[ ] 《从零实现BERT、GPT及Diffusion类算法》- 6:模型训练MiniBloomChat: Bloom+SFT
[ ] 《从零实现BERT、GPT及Diffusion类算法》- 7:分布式训练原理及混合精度、DDP、DeepSpeed、Megatron-LM使用
[ ] 《从零实现BERT、GPT及Diffusion类算法》- 8:优化训练2-分布式数据并行训练DistributedDataParallel
BBuf 的CUDA笔记系列
- [ ] github
- [ ] 【BBuf 的CUDA笔记】一,解析OneFlow Element-Wise 算子实现
- [ ] 【BBuf的CUDA笔记】二,解析 OneFlow BatchNorm 相关算子实现
- [ ] 【BBuf的CUDA笔记】三,reduce优化入门学习笔记
- [ ] 【BBuf的CUDA笔记】四,介绍三个高效实用的CUDA算法实现(OneFlow ElementWise模板,FastAtomicAdd模板,OneFlow UpsampleNearest2d模板)
- [ ] 【BBuf的CUDA笔记】五,解读 PyTorch index_add 操作涉及的优化技术
- [ ] 【BBuf的CUDA笔记】六,总结 FasterTransformer Encoder(BERT) 的cuda相关优化技巧
- [ ] 【BBuf的CUDA笔记】七,总结 FasterTransformer Decoder(GPT) 的cuda相关优化技巧
- [ ] 【BBuf的CUDA笔记】八,对比学习OneFlow 和 FasterTransformer 的 Softmax Cuda实现
- [ ] 【BBuf的CUDA笔记】九,使用newbing(chatgpt)解析oneflow softmax相关的fuse优化
- [ ] 【BBuf的CUDA笔记】十,Linear Attention的cuda kernel实现解析
- [ ] 【BBuf的cuda学习笔记十】Megatron-LM的gradient_accumulation_fusion优化
- [ ] 【BBuf的CUDA笔记】十一,Linear Attention的cuda kernel实现补档
- [ ] 【BBuf的CUDA笔记】十二,LayerNorm/RMSNorm的重计算实现
- [ ] 【BBuf的CUDA笔记】十三,OpenAI Triton 入门笔记一
- [ ] 【BBuf的CUDA笔记】十四,OpenAI Triton入门笔记二
- [ ] 【BBuf的CUDA笔记】十五,OpenAI Triton入门笔记三 FusedAttention
有意思的系列
CUDA
- [ ] CUDA C++ Best Practices Guide
- [ ] CUDA C++ Programming Guide
- [ ] Optimizing Matrix Transpose in CUDA
升学