autoDL 操作操作指南

Posted on 2026-01-29

恭喜连接成功！🎉 现在按照下面的新手 checklist 操作，5 分钟后你就能开始跑代码了：

第一步：验证环境（必做)

在 VS Code 的底部终端（如果没有，按 Ctrl+` 打开）输入以下命令：

1. 查看显卡（确认平台）

1	nvidia-smi

预期输出：显示 RTX 3090 或 RTX 4090，以及显存占用情况。

如果报错 command not found → 重启实例或联系客服

2. 验证 PyTorch 和 CUDA

1	python -c "import torch; print(f'PyTorch: {torch.__version__}'); print(f'CUDA可用: {torch.cuda.is_available()}'); print(f'显卡: {torch.cuda.get_device_name(0)}')"

预期输出：

1
2
3

PyTorch: 2.x.x
CUDA可用: True
显卡: NVIDIA GeForce RTX 3090

看到 True 说明 GPU 可用，可以开始炼丹了！

第二步：整理工作空间（养成好习惯）

不要在根目录 /root 乱放文件，执行：

# 进入数据盘（空间大，重启不会丢）
cd /root/autodl-tmp

# 创建项目文件夹（用英文，别用中文）
mkdir cv-project
cd cv-project

# 创建子目录
mkdir data        # 放图片数据集
mkdir models      # 放训练好的模型
mkdir src         # 放代码文件
mkdir notebooks   # 放 Jupyter 笔记本（可选）

在 VS Code 左侧文件栏刷新，你现在能看到这些文件夹了。

第三步：跑一个 Hello World（验证全流程）

在 src 文件夹里新建文件 test_gpu.py，粘贴：

import torch
import time

# 检查 GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"使用设备: {device}")

# 简单的矩阵乘法测试（验证 GPU 真的在工作）
a = torch.randn(1000, 1000).to(device)
b = torch.randn(1000, 1000).to(device)

start = time.time()
c = torch.matmul(a, b)
torch.cuda.synchronize()  # 等待 GPU 完成
end = time.time()

print(f"矩阵计算耗时: {(end-start)*1000:.2f} ms")
print("✅ GPU 工作正常！")

运行：

1 2	cd /root/autodl-tmp/cv-project/src python test_gpu.py

看到 ✅ GPU 工作正常！和毫秒级的时间 → 环境完全 OK。

第四步：安装你需要的包（图像识别常用）

根据你的具体任务，安装缺少的库：

# 基础图像处理（必装）
pip install opencv-python matplotlib pillow scikit-learn tqdm

# 如果需要预处理大规模数据
pip install pandas numpy

# 特定模型库（按需选择）
pip install timm          # PyTorch 图像模型库（ResNet, ViT 等）
pip install ultralytics   # 如果要用 YOLOv8 做目标检测

注意：AutoDL 已经预装了 torch, torchvision, numpy，不需要重装。

第五步：开始你的图像识别项目

选项 A：跑教程/复现论文（小白推荐）

把 GitHub 上的代码仓库克隆下来：

1 2	cd /root/autodl-tmp git clone https://github.com/xxx/xxx.git

按照 README 准备数据，运行训练脚本

选项 B：自己从零开始写

在 src 文件夹创建：

train.py：训练脚本
model.py：模型定义（ResNet、自定义 CNN 等）
dataset.py：数据加载（继承 torch.utils.data.Dataset）
config.yaml 或 config.py：超参数配置（学习率、batch size 等）

选项 C：用 Jupyter Notebook 探索（适合调试）

在终端输入：

1	jupyter lab --ip=0.0.0.0 --port=6006 --allow-root

然后在 VS Code 新建 .ipynb 文件，或者通过浏览器访问（需要端口转发）。

第六步：养成好习惯（避免踩坑）

1. 及时保存训练结果

1 2	# 定期压缩重要数据下载到本地（或传网盘） tar -czvf backup-$(date +%Y%m%d).tar.gz models/ data/

2. 监控显存（避免爆显存）

训练时另开一个终端窗口，盯着：

1	watch -n 1 nvidia-smi

看到 Memory-Usage 接近 100% 时，减小 batch size。

3. 设置 Git（代码不丢失）

1 2	git config --global user.name "你的名字" git config --global user.email "你的邮箱"

把代码 push 到 GitHub，防止实例释放后代码丢失。