自训 ScreenBERT demo

Posted on 2026-01-28 Edited on 2026-01-29

下面给出一份「可抄代码、可落地、可复现」的完整自训手册。
目标：3 周内把「ScreenBERT」从 0 训到线上 WebAgent，每一步都有脚本、命令行、关键超参、踩坑提示。你只需准备 1 张 24G 显卡 + 100 万网页截图（可自动生成）。

目录（一步一步跟做即可）

环境 & 依赖
数据工厂：自动生成 100 万「截图+DOM+动作」三元组
模型代码：双塔→拼接→Transformer（已给完整文件）
预训练：MLM + 动作分类双任务（脚本+slurm/单机）
微调：人工 1 万精品轨迹，让模型真正会点按钮
评测：元素定位 Acc、整链成功率、消融实验
推理部署：vLLM 4-bit 量化 + FastAPI 服务
线上自学习：失败案例回流→向量记忆→每周增量训练

一、conda 新建隔离环境

# 1. 新建环境（python 3.10 最稳）
conda create -n screenbert python=3.10 -y
conda activate screenbert

# 2. 换国内源（可选，下载快）
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch

二、、conda 一键装 PyTorch（已含 CUDA）

torch 需要 CUDA,1.2G有点大，走清华的镜像

1 2	pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 \ -f https://mirrors.aliyun.com/pytorch-wheels/cu121

验证

1 2	python -c "import torch, torchvision; print(torch.__version__, torch.cuda.is_available())" # 应输出 2.5.x True