在阿里云上跑深度学习任务是一个非常常见且高效的方案,尤其适合需要高性能计算资源(如GPU/TPU)的训练任务。下面我为你详细介绍一下如何在阿里云上部署和运行深度学习任务。
一、选择合适的阿里云产品
1. ECS 实例(弹性计算服务)
- 这是最常用的方式。
- 可以选择带有 GPU 的实例类型(如
ecs.gn6e-c8g1.xlarge等)。 - 支持自定义镜像、数据盘挂载、公网IP等配置。
2. PAI(Platform of AI)平台
- 阿里云官方提供的机器学习/深度学习平台。
- 提供可视化界面 + Notebook + 分布式训练支持。
- 包括 PAI-DSW(开发环境)、PAI-DLC(分布式训练)、PAI-EAS(模型部署)等功能模块。
3. 容器服务(ACK)
- 如果你使用 Kubernetes 管理模型训练任务,可以选择 ACK + GPU 节点。
- 支持 TensorFlow、PyTorch 等框架的分布式训练。
二、推荐流程:使用 ECS 实例跑深度学习任务
Step 1:创建 GPU 实例
- 登录 阿里云控制台
- 创建 ECS 实例:
- 地域选择靠近你的区域(如华北2)
- 实例类型选择带 GPU 的(例如 NVIDIA V100 或 T4 的机型)
- 操作系统建议选择 Ubuntu 或 CentOS(Ubuntu 更常见于深度学习)
- 安全组开放你需要的端口(如 SSH 22、Jupyter 8888)
Step 2:连接服务器
ssh root@你的ECS公网IP
Step 3:安装依赖环境
1. 更新系统 & 安装必要软件
sudo apt update && sudo apt upgrade -y
sudo apt install build-essential git curl wget -y
2. 安装 NVIDIA 驱动
# 添加 graphics-drivers PPA
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
# 查看推荐驱动版本
ubuntu-drivers devices
# 安装推荐版本(比如 nvidia-driver-535)
sudo apt install nvidia-driver-535
重启后验证驱动是否安装成功:
nvidia-smi
3. 安装 CUDA 和 cuDNN(可选,也可以用 conda 自带)
可以使用 NVIDIA 官方文档
或者更简单的方式是用 conda 安装 PyTorch/TensorFlow,它们自带对应版本的 CUDA。
4. 安装 Anaconda / Miniconda
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
chmod +x Miniconda3-latest-Linux-x86_64.sh
./Miniconda3-latest-Linux-x86_64.sh
然后创建虚拟环境并安装 PyTorch / TensorFlow:
conda create -n dl python=3.9
conda activate dl
conda install pytorch torchvision torchaudio cudatoolkit=11.8 -c pytorch
或安装 TensorFlow:
conda install tensorflow-gpu
Step 4:上传代码和数据
可以通过:
- SCP 命令上传本地文件
- 使用 Git clone 项目代码
- 挂载 OSS 存储(适合大数据集)
Step 5:运行训练脚本
python train.py
Step 6:使用 Jupyter Notebook(可选)
安装 Jupyter:
pip install jupyter
jupyter notebook --ip=0.0.0.0 --port=8888 --no-browser --allow-root
然后浏览器访问 http://<ECS公网IP>:8888,输入 token 即可使用。
三、进阶技巧
1. 使用 NAS/OSS 存储数据
- 大数据集推荐使用 NAS 或 OSS 挂载到 ECS 实例中,避免本地磁盘空间不足。
2. 自动关机节省费用
训练完成后,可以在脚本末尾加命令关机:
shutdown now
3. 使用 Screen 或 tmux 防止断开连接中断训练
screen -S train
python train.py
# 按 Ctrl+A+D 脱离会话
4. 使用 Spot 实例降低成本
- 如果对任务完成时间不敏感,可以选择“抢占式实例”,价格便宜很多。
四、费用估算参考(截至 2024 年)
| 实例类型 | GPU 类型 | 小时价格(按量付费) |
|---|---|---|
| ecs.gn6e-c8g1.xlarge | NVIDIA V100 16G | ¥1.5/h |
| ecs.gn5-c4g1.xlarge | NVIDIA P100 16G | ¥0.8/h |
| ecs.gn6v-c8g1.xlarge | NVIDIA A100 40G | ¥2.5/h |
五、总结
| 方式 | 优点 | 缺点 |
|---|---|---|
| ECS + 手动部署 | 灵活,适合熟悉Linux用户 | 初始配置复杂 |
| PAI 平台 | 易用性强,集成训练部署 | 成本略高,自由度低 |
| ACK + 容器 | 支持大规模分布式训练 | 上手门槛较高 |
如果你告诉我你要跑的具体模型(比如 PyTorch 还是 TensorFlow、图像分类还是 NLP),我可以给你一个定制化的部署脚本或镜像建议。
是否需要我提供一个完整的自动化部署脚本?或者你想了解如何使用阿里云 PAI 来跑模型?
云知识