基于 vLLM 在昇腾 910B 平台完成大模型分布式推理
最近由于项目原因,拿到了 95 万元的华为云代金券。项目需要进行大规模的大模型推理生成任务,为了利用好华为云的资源,于是我研究了下如何在华为云的昇腾 910B 平台部署大模型。尽管没有成熟的 CUDA 平台方便,但实际上整个流程也没有太过于困难,本篇文章便简单分享…
2025-10-18 0 查看全文大语言模型如何思维?瓶颈何在?
从 2022 年 ChatGPT 推出第一个商用大语言模型,到阿里 Qwen 不断迭代开源模型,再到近期 DeepSeek 的爆火,大语言模型几乎已经家喻户晓,它很可能是普通人用过的第一个人工智能产品。但由于绝大多数人根本不了解其底层原理,以至于被大语言模型的表现震撼后,直接将其…
2025-04-25 4 查看全文基于 llama.cpp 实现高性能本地大模型推理
一听到大语言模型,想必大家想到的一点就是“耗算力”“难以本地部署”。但实际上,大语言模型也有较小的版本,同时如果结合量化技术和高性能框架,在本地平台部署一个可用的大模型是完全可行的。本篇文章将会介绍使用 llama.cpp 这个高性能大模型推理框架,在本地部署开源…
2024-12-04 0 查看全文