「 AI 」 十二月 22, 2024
用 vLLM 在多节点多卡上部署 Qwen2.5 以及进行推理
文章字数 14k 阅读约需 13 mins.
本文记录了在两台机器,每台机器一块 Tesla T4 显卡的环境下,使用 vLLM 部署 Qwen2.5-32B-Instruct-GPTQ-Int4 模型的过程及遇到的问题,供类似环境使用 vLLM 进行多节点多卡推理参考。
- Qwen2.5-32B-Instruct-GPTQ-Int4、vLLM
- docker v27.4.0、nvidia-container-toolkit v1.17.3
- Tesla T4 显卡驱动 v550.127.08 CUDA12.4
# qwen
$ git clone...
查看全文