在 ECSN4 云服务器上搭建深度学习环境是一个常见的需求,尤其适用于训练和部署深度学习模型。ECSN4 是阿里云(Alibaba Cloud)推出的一种计算优化型实例,通常搭载了 NVIDIA GPU(如 Tesla T4、V100 等),非常适合用于深度学习任务。
以下是详细的步骤指南,帮助你在 ECSN4 实例 上搭建一个完整的深度学习环境:
🧰 一、准备工作
1. 购买或启动 ECSN4 实例
- 登录 阿里云控制台
- 创建云服务器 ECS 实例,选择:
- 实例类型:
ecs.n4.xlarge或更高(带 GPU) - 镜像建议选择:
- Ubuntu 20.04 / 22.04 LTS(推荐)
- CentOS 7/8(也可用)
- 安全组开放端口(SSH、Jupyter Notebook 等)
- 关联密钥对(用于 SSH 登录)
- 实例类型:
⚙️ 二、基础环境配置
1. 更新系统软件包
sudo apt update && sudo apt upgrade -y # Ubuntu/Debian
# 或
sudo yum update -y # CentOS
2. 安装必要的工具
sudo apt install -y build-essential git curl wget unzip vim python3-pip python3-venv
📦 三、安装 CUDA 和 cuDNN(如果镜像没有自带)
如果你使用的是 Ubuntu 并且选择了带有 GPU 支持的镜像(如 Alibaba Cloud 提供的 AI 镜像),可能已经预装了 CUDA 和 cuDNN。你可以通过以下命令检查:
nvcc --version
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
如果没有安装,可以手动安装:
方法一:使用阿里云镜像源安装(推荐国内用户)
阿里云提供了提速的 CUDA 镜像源,速度更快:
# 添加阿里云 CUDA 源
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin
sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/3bf863cc.pub
sudo add-apt-repository "deb https://mirrors.aliyun.com/nvidia/cuda/ubuntu2204/x86_64/ ./"
sudo apt update
sudo apt install -y cuda-toolkit-12-1
方法二:官方方式下载.run 文件安装(略复杂)
🐍 四、安装 Python 及虚拟环境
1. 创建虚拟环境(推荐使用 venv)
python3 -m venv dl_env
source dl_env/bin/activate
2. 升级 pip 并安装常用库
pip install --upgrade pip
pip install numpy pandas matplotlib jupyter
🧠 五、安装深度学习框架(PyTorch / TensorFlow)
1. 安装 PyTorch(GPU 版本)
前往官网获取最新安装命令:https://pytorch.org/get-started/locally/
示例(以 CUDA 11.8 为例):
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
2. 安装 TensorFlow(GPU 版本)
pip install tensorflow-gpu==2.12.0 # 根据你的 CUDA 版本选择合适的版本
验证是否识别到 GPU:
import tensorflow as tf
print(tf.config.list_physical_devices('GPU'))
🌐 六、可选:配置 Jupyter Notebook / Lab 远程访问
安装 Jupyter
pip install jupyter notebook jupyterlab
生成配置文件并设置密码
jupyter notebook --generate-config
jupyter server list --generate-config
jupyter server password
修改配置文件:
vim ~/.jupyter/jupyter_notebook_config.json
添加:
{
"ServerApp": {
"ip": "0.0.0.0",
"port": 8888,
"open_browser": false,
"allow_remote_access": true
}
}
启动服务:
jupyter notebook --config ~/.jupyter/jupyter_notebook_config.json
然后通过浏览器访问:http://<你的公网IP>:8888 输入 token 登录即可。
🔐 七、安全加固建议
- 使用密钥登录代替密码
- 开启防火墙限制访问端口
- 不要暴露 Jupyter 到公网,建议配合 Nginx + HTTPS + Token 访问
- 使用 RAM 子账号进行权限管理
✅ 总结
| 步骤 | 内容 |
|---|---|
| 1 | 创建 ECSN4 实例(带 GPU) |
| 2 | 安装操作系统依赖和工具 |
| 3 | 安装 CUDA / cuDNN(或使用已有镜像) |
| 4 | 配置 Python 虚拟环境 |
| 5 | 安装深度学习框架(PyTorch / TensorFlow) |
| 6 | 可选:部署 Jupyter Notebook |
| 7 | 安全加固与远程访问 |
如果你有具体的需求(比如要用哪个框架、是否需要 Docker、是否要用 FastAPI 部署模型等),我可以进一步帮你定制方案!
是否需要我提供一键安装脚本或者 Docker 镜像?欢迎继续提问 😊
云知识