基于 Nginx 实现大模型接口负载均衡与故障转移

近期我在多台服务器上通过 vLLM 部署了大语言模型提供 API 服务，以此进行大批量模型推理数据生成任务。在多节点的大模型推理中，负载均衡和故障转移对于效率和稳定性是至关重要的。在经过研究后，我觉得使用 Nginx 来完成这个任务是最简单和成熟的，本篇文章将会介绍…

2025-10-28 2 查看全文

基于 vLLM 在昇腾 910B 平台完成大模型分布式推理

最近由于项目原因，拿到了 95 万元的华为云代金券。项目需要进行大规模的大模型推理生成任务，为了利用好华为云的资源，于是我研究了下如何在华为云的昇腾 910B 平台部署大模型。尽管没有成熟的 CUDA 平台方便，但实际上整个流程也没有太过于困难，本篇文章便简单分享…

2025-10-18 3 查看全文

Prometheus + Grafana 监控快速上手

本站的监控系统从 Uptime Robot 换到 Uptime Kuma 再到 Nezha，总觉得它们太过于儿戏，很多功能不够严谨，甚至有些功能隐含安全风险。为了一次到位，我决定将服务器的监控系统换成 Prometheus + Grafana. Prometheus 是一个开源的、工业级的监控框架，通过通用或者…

2025-02-23 11 查看全文

Dorm Lab 升级铭凡 MS-A1！及五年折腾之路分享

最近手上有点钱，于是把寝室的 Dorm Lab 再一次升级到了 AMD 8700G 平台。这一次升级可以算是巨大的飞跃了，我玩的设备已经逐渐从电子垃圾过渡到了高性能平台，再仔细一想也发现这已经是我玩 Home / Dorm Lab 满五年了。那这不得总结下这五年玩过的设备，顺便看看一路…

2024-12-28 8 查看全文

Proxmox VE 磁盘大小规则与换算

在使用 PVE 时我经常发现不同页面显示的磁盘大小相差甚远，并且购买磁盘时标称的大小、磁盘在系统内的实际大小、磁盘格式化后的大小也不尽相同。以前我权当作单位换算问题没有细究，今天突然想起这事研究了下，也再此记录一下我发现的规则吧。为了避免混乱，本文所…

2024-12-22 2 查看全文

Linux tmux 基础使用教程

如果你有断开 ssh 仍保持程序运行的需求，大概率听说过 screen 这个命令。但作为一个 37 岁的老程序，它确实有点老了，本篇文章的内容便是它的现代替代 —— tmux 的基础使用教程。当然，因为我自己主要使用 Windows 开发，只是有时需要在 Linux 服务器上进行运维 / …

2024-12-06 2 查看全文

透过 Arch Linux 窥探系统安装的本质

最近突然想把笔记本双系统的 Ubuntu 换成 Arch Linux，结果发现 Arch Linux 居然没有安装器，所有安装必须参照文档一步步手动完成。带着好奇的心态一晚上走完了 Arch 的安装流程后，我发现我对系统安装尤其是 Linux 的安装有了一个更高的全新认识，本篇文章也是分享我…

2024-09-10 6 查看全文

Linux 系统 CUDA 多版本共存以及切换

今天在安装某国产机器学习框架时，发现其环境要求极为刁钻，仅支持三个 CUDA 的版本号。我又不愿意破坏当前的 CUDA 环境，通过查询和实验，发现了一个非常不错的 CUDA 多版本共存方案，可以方便地进行 CUDA 版本的切换，下面进入教程。教程以 Windows 下的 Ubuntu …

2024-05-24 2 查看全文

Nginx 反向代理常见问题

最近写后端项目或者是做内网穿透，经常需要用 Nginx 做反向代理，过程中碰到了许多问题，在此写个笔记记录一下。首先统一一下名词，我们称反代后侧的服务器为服务端，反代服务器为反代端，反代前侧的用户为客户端。一般情况通用模板一般来说，我是直接用宝…

2023-03-06 3 查看全文

赛扬 j1900 小主机升腾 C92 体验

之前几年，家里淘汰的一台 PC 一直挂机当服务器用，速龙 x4 641 的 CPU 也是十分耗电，待机也需要 40W，因此几年来花掉了 300 多块钱电费。最重要的是这台 PC 放在我书桌脚底下，非常占位置，晚上睡觉还非常的吵，因此早都想换台小主机当服务器。逛淘宝发现升腾 C92 这…

2022-07-29 15 查看全文

Linux文章归档