autoDL 操作操作指南

恭喜连接成功!🎉 现在按照下面的新手 checklist 操作,5 分钟后你就能开始跑代码了:

第一步:验证环境(必做)

在 VS Code 的底部终端(如果没有,按 Ctrl+` 打开)输入以下命令:

1. 查看显卡(确认平台)

1
nvidia-smi

预期输出:显示 RTX 3090RTX 4090,以及显存占用情况。

  • 如果报错 command not found → 重启实例或联系客服

2. 验证 PyTorch 和 CUDA

1
python -c "import torch; print(f'PyTorch: {torch.__version__}'); print(f'CUDA可用: {torch.cuda.is_available()}'); print(f'显卡: {torch.cuda.get_device_name(0)}')"

预期输出:

1
2
3
PyTorch: 2.x.x
CUDA可用: True
显卡: NVIDIA GeForce RTX 3090
  • 看到 True 说明 GPU 可用,可以开始炼丹了!

第二步:整理工作空间(养成好习惯)

不要在根目录 /root 乱放文件,执行:

1
2
3
4
5
6
7
8
9
10
11
12
# 进入数据盘(空间大,重启不会丢)
cd /root/autodl-tmp

# 创建项目文件夹(用英文,别用中文)
mkdir cv-project
cd cv-project

# 创建子目录
mkdir data # 放图片数据集
mkdir models # 放训练好的模型
mkdir src # 放代码文件
mkdir notebooks # 放 Jupyter 笔记本(可选)

在 VS Code 左侧文件栏刷新,你现在能看到这些文件夹了。

第三步:跑一个 Hello World(验证全流程)

src 文件夹里新建文件 test_gpu.py,粘贴:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
import torch
import time

# 检查 GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"使用设备: {device}")

# 简单的矩阵乘法测试(验证 GPU 真的在工作)
a = torch.randn(1000, 1000).to(device)
b = torch.randn(1000, 1000).to(device)

start = time.time()
c = torch.matmul(a, b)
torch.cuda.synchronize() # 等待 GPU 完成
end = time.time()

print(f"矩阵计算耗时: {(end-start)*1000:.2f} ms")
print("✅ GPU 工作正常!")

运行:

1
2
cd /root/autodl-tmp/cv-project/src
python test_gpu.py

看到 ✅ GPU 工作正常! 和毫秒级的时间 → 环境完全 OK。

第四步:安装你需要的包(图像识别常用)

根据你的具体任务,安装缺少的库:

1
2
3
4
5
6
7
8
9
# 基础图像处理(必装)
pip install opencv-python matplotlib pillow scikit-learn tqdm

# 如果需要预处理大规模数据
pip install pandas numpy

# 特定模型库(按需选择)
pip install timm # PyTorch 图像模型库(ResNet, ViT 等)
pip install ultralytics # 如果要用 YOLOv8 做目标检测

注意:AutoDL 已经预装了 torch, torchvision, numpy,不需要重装。

第五步:开始你的图像识别项目

选项 A:跑教程/复现论文(小白推荐)

  • 把 GitHub 上的代码仓库克隆下来:
1
2
cd /root/autodl-tmp
git clone https://github.com/xxx/xxx.git
  • 按照 README 准备数据,运行训练脚本

选项 B:自己从零开始写

在 src 文件夹创建:

  • train.py:训练脚本
  • model.py:模型定义(ResNet、自定义 CNN 等)
  • dataset.py:数据加载(继承 torch.utils.data.Dataset)
  • config.yaml 或 config.py:超参数配置(学习率、batch size 等)

选项 C:用 Jupyter Notebook 探索(适合调试)

在终端输入:

1
jupyter lab --ip=0.0.0.0 --port=6006 --allow-root

然后在 VS Code 新建 .ipynb 文件,或者通过浏览器访问(需要端口转发)。

第六步:养成好习惯(避免踩坑)

1. 及时保存训练结果

1
2
# 定期压缩重要数据下载到本地(或传网盘)
tar -czvf backup-$(date +%Y%m%d).tar.gz models/ data/

2. 监控显存(避免爆显存)

训练时另开一个终端窗口,盯着:

1
watch -n 1 nvidia-smi

看到 Memory-Usage 接近 100% 时,减小 batch size。

3. 设置 Git(代码不丢失)

1
2
git config --global user.name "你的名字"
git config --global user.email "你的邮箱"

把代码 push 到 GitHub,防止实例释放后代码丢失。

你现在应该看到的画面

左侧文件栏:cv-project 文件夹,里面有 data/, models/, src/

底部终端:显示 (base) root@xxx:~/autodl-tmp/cv-project#

Python 解释器:右下角显示 Python 3.8.x (‘base’: conda)

如果都对了,你现在就可以开始写 train.py 训练你的第一个图像识别模型了!