dodox/dppo

Dominik Moritz Roth a6a805d5de Update EXPERIMENT_PLAN.md

2025-10-08 21:08:59 +02:00

2.5 KiB

Raw Blame History

DPPO Validation Status

Environment Testing Progress

Environment	Pre-train	Fine-tune	Validation Result	Validation WandB	Full Run Status
Gym (MuJoCo)
hopper-medium-v2	Complete	Complete	1415.85	Dev	Running (3446225)
walker2d-medium-v2	Complete	Complete	2977.97	Dev	Running (3446226)
halfcheetah-medium-v2	Complete	Complete	4058.34	Dev	Running (3446227)
Robomimic
lift	Complete	Complete	69% success	Dev	Running (3446238)
can	Complete	Complete	85.89% success	Dev	Running (3446239)
square	Complete	Complete	41% success (timeout)	Dev	Running (3446243)
transport	Complete	Validation queued (3446147)	Pending	-	Running (3446244)
D3IL
avoid_m1	Complete	Complete	87.7 reward	Dev	Running (3446240)
avoid_m2	Complete	Complete	82.46 reward	Dev	Running (3446241)
avoid_m3	Complete	Validation running (3446146)	76.22 reward (step 55k)	Dev	Running (3446245)

Technical Issues Resolved

MuJoCo compilation with Intel compiler (GCC wrapper solution)
SLURM job scheduling and resource allocation
WandB logging configuration
Configuration parameter corrections for D3IL

Phase 2: Full Paper Replication (LAUNCHED)

Full runs submitted on accelerated partition (8hr limit):

Gym: hopper (3446225), walker2d (3446226), halfcheetah (3446227)
Robomimic: lift (3446238), can (3446239), square (3446243), transport (3446244)
D3IL: avoid_m1 (3446240), avoid_m2 (3446241), avoid_m3 (3446245)

Total: 10 full replication runs queued

Next Steps

Monitor full runs progress and extract final results
Generate performance comparison tables vs paper benchmarks
Document final DPPO replication results