中文训练与评估¶
平地训练¶
建议从这里开始。
cd ~/rlgpu_ws/IsaacLab
./isaaclab.sh -p ~/Desktop/guguji_simulation/guguji_isaaclab/scripts/rsl_rl/train.py \
--task=Isaac-Velocity-Flat-Guguji-v0 \
--num_envs=4096 \
--headless
平地任务使用前向速度课程,初始速度约为 0.10 m/s,会随着跟踪效果提升逐步扩展到 0.30 m/s。
粗糙地形训练¶
当平地策略稳定后,再切换到粗糙地形:
cd ~/rlgpu_ws/IsaacLab
./isaaclab.sh -p ~/Desktop/guguji_simulation/guguji_isaaclab/scripts/rsl_rl/train.py \
--task=Isaac-Velocity-Rough-Guguji-v0 \
--num_envs=2048 \
--headless
评估策略¶
cd ~/rlgpu_ws/IsaacLab
./isaaclab.sh -p ~/Desktop/guguji_simulation/guguji_isaaclab/scripts/rsl_rl/play.py \
--task=Isaac-Velocity-Flat-Guguji-Play-v0 \
--num_envs=50
加载指定检查点¶
cd ~/rlgpu_ws/IsaacLab
./isaaclab.sh -p ~/Desktop/guguji_simulation/guguji_isaaclab/scripts/rsl_rl/play.py \
--task=Isaac-Velocity-Flat-Guguji-Play-v0 \
--num_envs=50 \
--load_run=2026-04-17_15-33-29 \
--checkpoint=model_19999.pt
微调 / 继续训练¶
在已有良好模型的基础上继续训练——适用于中断后续训练、或在收敛策略上调整奖励权重后微调。
从最新 run 的最新 checkpoint 续训:
cd ~/rlgpu_ws/IsaacLab
./isaaclab.sh -p ~/Desktop/guguji_simulation/guguji_isaaclab/scripts/rsl_rl/train.py \
--task=Isaac-Velocity-Flat-Guguji-v0 \
--num_envs=4096 \
--headless \
--resume True
指定 run 和 checkpoint 文件续训:
cd ~/rlgpu_ws/IsaacLab
./isaaclab.sh -p ~/Desktop/guguji_simulation/guguji_isaaclab/scripts/rsl_rl/train.py \
--task=Isaac-Velocity-Flat-Guguji-v0 \
--num_envs=4096 \
--headless \
--load_run=2026-04-17_15-33-29 \
--checkpoint=model_29999.pt
平地策略迁移到粗糙地形(跨任务微调):
cd ~/rlgpu_ws/IsaacLab
./isaaclab.sh -p ~/Desktop/guguji_simulation/guguji_isaaclab/scripts/rsl_rl/train.py \
--task=Isaac-Velocity-Rough-Guguji-v0 \
--num_envs=2048 \
--headless \
--load_run=2026-04-17_15-33-29 \
--checkpoint=model_29999.pt
Tip
运行 ls logs/rsl_rl/guguji_flat/ 可列出所有可用 run,找到要续训的时间戳。
输出产物¶
训练日志与模型文件位于:
logs/rsl_rl/<experiment_name>/<timestamp>/
评估脚本还会导出:
policy.pt:TorchScript 部署文件policy.onnx:ONNX 部署文件
TensorBoard¶
cd ~/rlgpu_ws/IsaacLab
./isaaclab.sh -p -m tensorboard.main --logdir=logs/rsl_rl/guguji_flat
cd ~/rlgpu_ws/IsaacLab
./isaaclab.sh -p -m tensorboard.main --logdir=logs/rsl_rl/guguji_rough
实践建议¶
- 开始长时间训练前先验证环境注册是否成功
- 优先把平地直行走稳
- 重点检查是否存在绕圈、跛行、抬腿不足等现象
- 在
play.py中验证最好的一版策略后再导出 - 最后再进入粗糙地形泛化训练