阿里云如何租服务器跑深度学习?

在阿里云上租用服务器来跑深度学习任务,是一个非常常见且高效的选择。以下是详细的步骤和建议,帮助你顺利部署深度学习环境:


一、准备工作

1. 注册并登录阿里云账号

  • 访问 阿里云官网
  • 注册账号(推荐使用实名认证)
  • 登录控制台:阿里云控制台

二、选择适合深度学习的ECS实例(云服务器)

1. 进入 ECS 实例购买页面

路径:

控制台 > 云服务器ECS > 实例 > 创建实例

2. 配置实例参数

(1)地域(Region)

  • 选择离你最近或网络延迟较低的区域,如“华北2(北京)”、“华东1(杭州)”等。

(2)实例类型(Instance Type)

重点:选择GPU型实例!

实例类型 GPU型号 适用场景
ecs.gn6v-c8g30i150 NVIDIA Tesla V100 32G 高性能训练
ecs.gn5-c8g1i4.e NVIDIA Tesla P100 中小型训练
ecs.gn5i-c4g1i1.m NVIDIA T4 推理 / 轻量训练

推荐新手从T4开始尝试,性价比高。

(3)镜像(Image)

  • 公共镜像
    • Ubuntu 20.04 / 22.04(推荐)
    • CentOS(也可以)
  • 市场镜像
    • 可以直接选择安装好CUDA、PyTorch/TensorFlow的镜像(节省时间)

(4)系统盘和数据盘

  • 系统盘至少选 40GB SSD
  • 数据盘可额外挂载,用于存储模型、数据集等,建议 100GB起步

(5)安全组(Security Group)

确保开放以下端口:

  • SSH(22)
  • Jupyter Notebook(8888)
  • HTTP(80)、HTTPS(443)如果部署Web服务
  • 自定义端口(比如5000)

三、连接服务器并配置环境

1. 使用SSH连接服务器

ssh root@你的公网IP

2. 安装必要软件

(1)更新系统

sudo apt update && sudo apt upgrade -y

(2)安装NVIDIA驱动(如果是自定义镜像需要手动安装)

# 添加仓库
sudo apt install ubuntu-drivers-common
# 查看推荐驱动版本
ubuntu-drivers devices
# 安装推荐驱动(例如 nvidia-driver-535)
sudo apt install nvidia-driver-535
# 重启
sudo reboot

(3)安装 CUDA 和 cuDNN(或者使用镜像自带)

你可以使用官方的 .run 文件或通过 apt 安装。

(4)安装 Anaconda / Miniconda(推荐管理Python虚拟环境)

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
chmod +x Miniconda3-latest-Linux-x86_64.sh
./Miniconda3-latest-Linux-x86_64.sh

(5)安装 PyTorch 或 TensorFlow

安装 PyTorch(自动识别CUDA版本):
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
安装 TensorFlow(注意与CUDA版本兼容性):
pip install tensorflow

四、上传代码 & 数据集

方法一:本地上传到服务器

scp -r your_code_folder root@your_server_ip:/root/

方法二:使用 Git 克隆项目

git clone https://github.com/yourname/yourproject.git

五、运行深度学习任务

1. 直接运行脚本

python train.py

2. 后台运行(防止终端关闭中断训练)

nohup python train.py > train.log 2>&1 &

3. 使用 tmux(推荐)

tmux new -s dl
python train.py
# 按 Ctrl+B 再按 D 断开会话

六、使用Jupyter Notebook远程访问(可选)

1. 安装 jupyter notebook

pip install notebook

2. 生成配置文件

jupyter notebook --generate-config

3. 修改配置文件

nano ~/.jupyter/jupyter_notebook_config.py

修改以下内容:

c.NotebookApp.ip = '0.0.0.0'
c.NotebookApp.open_browser = False
c.NotebookApp.allow_remote_access = True

4. 设置密码(可选)

jupyter notebook password

5. 启动 Jupyter

jupyter notebook --port=8888

6. 浏览器访问

http://你的公网IP:8888

七、费用优化建议

1. 使用抢占式实例(Spot Instance)

  • 成本低,但可能被回收
  • 适合容错训练任务

2. 包年包月 vs 按量计费

  • 如果长期使用,建议买包月/包年
  • 短期测试可用按量计费

3. 停止不使用的实例

  • 不用时停止服务器,避免浪费资源

八、其他推荐工具和服务

工具 用途
OSS 存储大模型或数据集
NAS 多实例共享文件
PAI平台(阿里云机器学习平台) 图形化操作深度学习任务
容器服务ACK 部署模型服务、微服务架构

总结

步骤 内容
1 注册阿里云账号
2 创建GPU型ECS实例
3 SSH连接服务器
4 安装驱动、Python、深度学习框架
5 上传代码和数据
6 开始训练或推理
7 可视化(Jupyter)
8 优化成本、合理使用资源

如果你有具体的项目需求(如图像分类、目标检测、自然语言处理),我还可以帮你定制更合适的配置方案和部署流程!

是否需要我帮你写一个一键部署脚本?或者提供 PyTorch/TensorFlow 的完整安装示例?