自训 ScreenBERT demo

下面给出一份「可抄代码、可落地、可复现」的完整自训手册。
目标:3 周内把「ScreenBERT」从 0 训到线上 WebAgent,每一步都有脚本、命令行、关键超参、踩坑提示。你只需准备 1 张 24G 显卡 + 100 万网页截图(可自动生成)。

目录(一步一步跟做即可)

  1. 环境 & 依赖
  2. 数据工厂:自动生成 100 万「截图+DOM+动作」三元组
  3. 模型代码:双塔→拼接→Transformer(已给完整文件)
  4. 预训练:MLM + 动作分类双任务(脚本+slurm/单机)
  5. 微调:人工 1 万精品轨迹,让模型真正会点按钮
  6. 评测:元素定位 Acc、整链成功率、消融实验
  7. 推理部署:vLLM 4-bit 量化 + FastAPI 服务
  8. 线上自学习:失败案例回流→向量记忆→每周增量训练

一、conda 新建隔离环境

1
2
3
4
5
6
7
# 1. 新建环境(python 3.10 最稳)
conda create -n screenbert python=3.10 -y
conda activate screenbert

# 2. 换国内源(可选,下载快)
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch

二、、conda 一键装 PyTorch(已含 CUDA)

torch 需要 CUDA,1.2G有点大,走清华的镜像

1
2
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 \
-f https://mirrors.aliyun.com/pytorch-wheels/cu121

验证

1
2
python -c "import torch, torchvision; print(torch.__version__, torch.cuda.is_available())"
# 应输出 2.5.x True