LM Studio里跑一个大模型,速度20-25 tok/s。换成纯粹的llama.cpp,速度飙到50+ tok/s。性能直接翻倍。
这个数据来自一个热门讨论,它正在让很多本地大模型玩家重新审视自己的工具链。大多数人,尤其是刚入门的,首选都是Ollama或LM Studio。理由很简单:一键安装、图形界面、模型市场,主打一个省心。 但这份省心的代价,可能是你的高端显卡正在被软件“封印”。 一个叫llama-swap的工具浮出水面。它本质上是一个极其轻量级的“模型路由器”,自己不跑模型,而是灵活调用你系统里最快的推理后端——比
github.com/mostlygeek/llama-swap