教学项目tiny-vllm,教你使用 C++ 和 CUDA 构建一个高性能 LLM 推理引擎
“在这个过程中,我们会学到很多东西,也会犯错,并且会从零开始推导相关思想和数学原理。 这个仓库包含两部分内容: 推理服务器的完整源代码 一门课程,我会带你完成这个引擎的实现过程 你可以把它当作学习工具,用在自己的学习路径中。如果你是讲师,也欢迎把它作为大学教学资源。 这个推理引擎包含: 从 Safetensors 加载真实的 LLM 模型:Llama 3.2 1B Instru
github.com/jmaczan/tiny-vllm