ChrisKim
Do not go gentle into that good night.

vLLM
文章归档

基于 Nginx 实现大模型接口负载均衡与故障转移

近期我在多台服务器上通过 vLLM 部署了大语言模型提供 API 服务，以此进行大批量模型推理数据生成任务。在多节点的大模型推理中，负载均衡和故障转移对于效率和稳定性是至关重要的。在经过研究后，我觉得使用 Nginx 来完成这个任务是最简单和成熟的，本篇文章将会介绍…

2025-10-28 0 查看全文

基于 vLLM 在昇腾 910B 平台完成大模型分布式推理

最近由于项目原因，拿到了 95 万元的华为云代金券。项目需要进行大规模的大模型推理生成任务，为了利用好华为云的资源，于是我研究了下如何在华为云的昇腾 910B 平台部署大模型。尽管没有成熟的 CUDA 平台方便，但实际上整个流程也没有太过于困难，本篇文章便简单分享…

2025-10-18 3 查看全文