ChrisKim
Do not go gentle into that good night.
颢天

Swift
文章归档

基于 Swift/Megatron 完成多模态大模型分布式训练

近期由于项目需要训练大模型,学习了基于 Swift/Megatron 的大模型分布式训练技术,发现细节不少,踩了不少坑,在此记录希望能帮到大家。 本文的最重要关键词就是分布式,毕竟模型训练谁不会呢,拿 transformers 库就能训下来了,在多机平台上如何跑起高效的训练才…

   2026-04-29   0   查看全文