基于 Swift/Megatron 完成多模态大模型分布式训练
近期由于项目需要训练大模型,学习了基于 Swift/Megatron 的大模型分布式训练技术,发现细节不少,踩了不少坑,在此记录希望能帮到大家。 本文的最重要关键词就是分布式,毕竟模型训练谁不会呢,拿 transformers 库就能训下来了,在多机平台上如何跑起高效的训练才…
2026-04-29 1 查看全文Linux 系统 CUDA 多版本共存以及切换
今天在安装某国产机器学习框架时,发现其环境要求极为刁钻,仅支持三个 CUDA 的版本号。我又不愿意破坏当前的 CUDA 环境,通过查询和实验,发现了一个非常不错的 CUDA 多版本共存方案,可以方便地进行 CUDA 版本的切换,下面进入教程。 教程以 Windows 下的 Ubuntu …
2024-05-24 2 查看全文使用容器在国产超算平台安装 PyTorch CUDA
近期知道了我校新建了高性能计算平台,于是找老师申请了个账号。上去一看发现居然三台 GPU 节点,每台都有两块 A100 40G,遂打算开始炼丹。结果发现学校为了国产化,服务器 CPU 居然是 arm64 指令集的鲲鹏 920,导致 PyTorch 无法安装。折腾许久,总结了本篇文章,用容…
2024-03-11 2 查看全文