SpecInfer: Accelerating Large Language Model Serving with Tree-based Speculative Inference and Verification

本文通讯作者为Zhihao Jia，

CMU团队CMU Catalyst Group和Parallel Data Lab的工作。前者是Tianqi Chen运营的团队，后者是Greg Ganger创建的团队，主要负责存储方向。

一句话总结概括

a tree-based speculative inference and verification system for LLM serving

Speculative Inference：预测推理/投机采样。

SpecInfer和之前的区别主要是simultaneously consider a diversity of speculation candidates instead of just one as in existing approaches。

个人认为可以理解为SpecInfer牺牲了计算量而提高了预测的成功率。

搜索空间大
- 现在LLM vocabularies很大
- 最大化speculative性能需要预测多个tokens，而不是仅仅一个token
需要验证预测出来的token和真实推理的是一样的
- 提出了一个multi-step speculative sampling：专门为小模型服务的验证服务
- tree-based parallel decoding mechanism：同步验证多个token