基于 Swift/Megatron 完成多模态大模型分布式训练

近期由于项目需要训练大模型，学习了基于 Swift/Megatron 的大模型分布式训练技术，发现细节不少，踩了不少坑，在此记录希望能帮到大家。本文的最重要关键词就是分布式，毕竟模型训练谁不会呢，拿 transformers 库就能训下来了，在多机平台上如何跑起高效的训练才…

2026-04-29 1 查看全文

大语言模型如何思维？瓶颈何在？

从 2022 年 ChatGPT 推出第一个商用大语言模型，到阿里 Qwen 不断迭代开源模型，再到近期 DeepSeek 的爆火，大语言模型几乎已经家喻户晓，它很可能是普通人用过的第一个人工智能产品。但由于绝大多数人根本不了解其底层原理，以至于被大语言模型的表现震撼后，直接将其…

2025-04-25 4 查看全文

一听到大语言模型，想必大家想到的一点就是“耗算力”“难以本地部署”。但实际上，大语言模型也有较小的版本，同时如果结合量化技术和高性能框架，在本地平台部署一个可用的大模型是完全可行的。本篇文章将会介绍使用 llama.cpp 这个高性能大模型推理框架，在本地部署开源…

2024-12-04 0 查看全文