在阿里云上租用服务器来跑深度学习任务,是一个非常常见且高效的选择。以下是详细的步骤和建议,帮助你顺利部署深度学习环境:
一、准备工作
1. 注册并登录阿里云账号
- 访问 阿里云官网
- 注册账号(推荐使用实名认证)
- 登录控制台:阿里云控制台
二、选择适合深度学习的ECS实例(云服务器)
1. 进入 ECS 实例购买页面
路径:
控制台 > 云服务器ECS > 实例 > 创建实例
2. 配置实例参数
(1)地域(Region)
- 选择离你最近或网络延迟较低的区域,如“华北2(北京)”、“华东1(杭州)”等。
(2)实例类型(Instance Type)
重点:选择GPU型实例!
| 实例类型 | GPU型号 | 适用场景 |
|---|---|---|
ecs.gn6v-c8g30i150 |
NVIDIA Tesla V100 32G | 高性能训练 |
ecs.gn5-c8g1i4.e |
NVIDIA Tesla P100 | 中小型训练 |
ecs.gn5i-c4g1i1.m |
NVIDIA T4 | 推理 / 轻量训练 |
推荐新手从T4开始尝试,性价比高。
(3)镜像(Image)
- 公共镜像:
- Ubuntu 20.04 / 22.04(推荐)
- CentOS(也可以)
- 市场镜像:
- 可以直接选择安装好CUDA、PyTorch/TensorFlow的镜像(节省时间)
(4)系统盘和数据盘
- 系统盘至少选 40GB SSD
- 数据盘可额外挂载,用于存储模型、数据集等,建议 100GB起步
(5)安全组(Security Group)
确保开放以下端口:
- SSH(22)
- Jupyter Notebook(8888)
- HTTP(80)、HTTPS(443)如果部署Web服务
- 自定义端口(比如5000)
三、连接服务器并配置环境
1. 使用SSH连接服务器
ssh root@你的公网IP
2. 安装必要软件
(1)更新系统
sudo apt update && sudo apt upgrade -y
(2)安装NVIDIA驱动(如果是自定义镜像需要手动安装)
# 添加仓库
sudo apt install ubuntu-drivers-common
# 查看推荐驱动版本
ubuntu-drivers devices
# 安装推荐驱动(例如 nvidia-driver-535)
sudo apt install nvidia-driver-535
# 重启
sudo reboot
(3)安装 CUDA 和 cuDNN(或者使用镜像自带)
你可以使用官方的 .run 文件或通过 apt 安装。
(4)安装 Anaconda / Miniconda(推荐管理Python虚拟环境)
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
chmod +x Miniconda3-latest-Linux-x86_64.sh
./Miniconda3-latest-Linux-x86_64.sh
(5)安装 PyTorch 或 TensorFlow
安装 PyTorch(自动识别CUDA版本):
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
安装 TensorFlow(注意与CUDA版本兼容性):
pip install tensorflow
四、上传代码 & 数据集
方法一:本地上传到服务器
scp -r your_code_folder root@your_server_ip:/root/
方法二:使用 Git 克隆项目
git clone https://github.com/yourname/yourproject.git
五、运行深度学习任务
1. 直接运行脚本
python train.py
2. 后台运行(防止终端关闭中断训练)
nohup python train.py > train.log 2>&1 &
3. 使用 tmux(推荐)
tmux new -s dl
python train.py
# 按 Ctrl+B 再按 D 断开会话
六、使用Jupyter Notebook远程访问(可选)
1. 安装 jupyter notebook
pip install notebook
2. 生成配置文件
jupyter notebook --generate-config
3. 修改配置文件
nano ~/.jupyter/jupyter_notebook_config.py
修改以下内容:
c.NotebookApp.ip = '0.0.0.0'
c.NotebookApp.open_browser = False
c.NotebookApp.allow_remote_access = True
4. 设置密码(可选)
jupyter notebook password
5. 启动 Jupyter
jupyter notebook --port=8888
6. 浏览器访问
http://你的公网IP:8888
七、费用优化建议
1. 使用抢占式实例(Spot Instance)
- 成本低,但可能被回收
- 适合容错训练任务
2. 包年包月 vs 按量计费
- 如果长期使用,建议买包月/包年
- 短期测试可用按量计费
3. 停止不使用的实例
- 不用时停止服务器,避免浪费资源
八、其他推荐工具和服务
| 工具 | 用途 |
|---|---|
| OSS | 存储大模型或数据集 |
| NAS | 多实例共享文件 |
| PAI平台(阿里云机器学习平台) | 图形化操作深度学习任务 |
| 容器服务ACK | 部署模型服务、微服务架构 |
总结
| 步骤 | 内容 |
|---|---|
| 1 | 注册阿里云账号 |
| 2 | 创建GPU型ECS实例 |
| 3 | SSH连接服务器 |
| 4 | 安装驱动、Python、深度学习框架 |
| 5 | 上传代码和数据 |
| 6 | 开始训练或推理 |
| 7 | 可视化(Jupyter) |
| 8 | 优化成本、合理使用资源 |
如果你有具体的项目需求(如图像分类、目标检测、自然语言处理),我还可以帮你定制更合适的配置方案和部署流程!
是否需要我帮你写一个一键部署脚本?或者提供 PyTorch/TensorFlow 的完整安装示例?
云知识