自训 ScreenBERT demo
下面给出一份「可抄代码、可落地、可复现」的完整自训手册。
目标:3 周内把「ScreenBERT」从 0 训到线上 WebAgent,每一步都有脚本、命令行、关键超参、踩坑提示。你只需准备 1 张 24G 显卡 + 100 万网页截图(可自动生成)。
目录(一步一步跟做即可)
- 环境 & 依赖
- 数据工厂:自动生成 100 万「截图+DOM+动作」三元组
- 模型代码:双塔→拼接→Transformer(已给完整文件)
- 预训练:MLM + 动作分类双任务(脚本+slurm/单机)
- 微调:人工 1 万精品轨迹,让模型真正会点按钮
- 评测:元素定位 Acc、整链成功率、消融实验
- 推理部署:vLLM 4-bit 量化 + FastAPI 服务
- 线上自学习:失败案例回流→向量记忆→每周增量训练
一、conda 新建隔离环境
1 | # 1. 新建环境(python 3.10 最稳) |
二、、conda 一键装 PyTorch(已含 CUDA)
torch 需要 CUDA,1.2G有点大,走清华的镜像
1 | pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 \ |
验证
1 | python -c "import torch, torchvision; print(torch.__version__, torch.cuda.is_available())" |