seperate dmc setup...

2025-07-29 14:58:43 +02:00 · 2025-07-29 14:58:43 +02:00 · a02e258f1c
commit a02e258f1c
parent 30df18239a
3 changed files with 209 additions and 0 deletions
--- a/slurm/run_reppo_dmc_dev.sh
+++ b/slurm/run_reppo_dmc_dev.sh
@ -0,0 +1,55 @@
+#!/bin/bash
+#SBATCH --job-name=reppo_dmc_dev
+#SBATCH --account=hk-project-p0022232
+#SBATCH --partition=dev_accelerated
+#SBATCH --gres=gpu:1
+#SBATCH --nodes=1
+#SBATCH --ntasks-per-node=1
+#SBATCH --cpus-per-task=4
+#SBATCH --time=00:30:00
+#SBATCH --mem=16G
+#SBATCH --output=logs/reppo_dmc_dev_%j.out
+#SBATCH --error=logs/reppo_dmc_dev_%j.err
+
+# Load required modules
+module load devel/cuda/12.4
+
+# Set environment variables
+export WANDB_MODE=online
+export WANDB_PROJECT=reppo_dmc_dev
+export WANDB_API_KEY=01fbfaf5e2f64bedd68febedfcaa7e3bbd54952c
+export WANDB_ENTITY=dominik_roth
+
+# Change to project directory
+cd /hkfs/home/project/hk-project-robolear/ys1087/Projects/reppo
+
+# Activate virtual environment
+source .venv/bin/activate
+
+# Run DMC (mujoco_playground) test
+echo "Starting REPPO dev test with DMC..."
+echo "Job ID: $SLURM_JOB_ID"
+echo "Node: $SLURM_NODELIST"
+echo "GPU: $CUDA_VISIBLE_DEVICES"
+
+# Default to CartpoleBalance for quick test
+ENV_NAME=${ENV_NAME:-CartpoleBalance}
+EXPERIMENT_TYPE=${EXPERIMENT_TYPE:-mjx_dmc_small_data}
+
+echo "Environment: $ENV_NAME"
+echo "Experiment type: $EXPERIMENT_TYPE"
+
+# Run the experiment with mjx_dmc environment
+python reppo_alg/jaxrl/reppo.py \
+    env=mjx_dmc \
+    env.name=$ENV_NAME \
+    hyperparameters.num_envs=256 \
+    hyperparameters.num_steps=32 \
+    hyperparameters.num_mini_batches=8 \
+    hyperparameters.num_epochs=4 \
+    hyperparameters.total_time_steps=1000000 \
+    wandb.mode=online \
+    wandb.entity=$WANDB_ENTITY \
+    wandb.project=$WANDB_PROJECT
+
+echo "DMC dev test completed!"
--- a/slurm/run_reppo_dmc_prod.sh
+++ b/slurm/run_reppo_dmc_prod.sh
@ -0,0 +1,56 @@
+#!/bin/bash
+#SBATCH --job-name=reppo_dmc_prod
+#SBATCH --account=hk-project-p0022232
+#SBATCH --partition=accelerated
+#SBATCH --gres=gpu:1
+#SBATCH --nodes=1
+#SBATCH --ntasks-per-node=1
+#SBATCH --cpus-per-task=8
+#SBATCH --time=24:00:00
+#SBATCH --mem=32G
+#SBATCH --output=logs/reppo_dmc_prod_%j.out
+#SBATCH --error=logs/reppo_dmc_prod_%j.err
+
+# Load required modules
+module load devel/cuda/12.4
+
+# Set environment variables
+export WANDB_MODE=online
+export WANDB_PROJECT=reppo_dmc_production
+export WANDB_API_KEY=01fbfaf5e2f64bedd68febedfcaa7e3bbd54952c
+export WANDB_ENTITY=dominik_roth
+
+# Change to project directory
+cd /hkfs/home/project/hk-project-robolear/ys1087/Projects/reppo
+
+# Activate virtual environment
+source .venv/bin/activate
+
+# Run DMC experiment
+echo "Starting REPPO production run with DMC..."
+echo "Job ID: $SLURM_JOB_ID"
+echo "Node: $SLURM_NODELIST"
+echo "GPU: $CUDA_VISIBLE_DEVICES"
+
+# Environment name passed as variable
+ENV_NAME=${ENV_NAME:-CartpoleBalance}
+SEED=${SEED:-0}
+
+echo "Environment: $ENV_NAME"
+echo "Seed: $SEED"
+
+# Run the experiment with full 50M steps
+python reppo_alg/jaxrl/reppo.py \
+    env=mjx_dmc \
+    env.name=$ENV_NAME \
+    hyperparameters.num_envs=1024 \
+    hyperparameters.num_steps=128 \
+    hyperparameters.num_mini_batches=128 \
+    hyperparameters.num_epochs=4 \
+    hyperparameters.total_time_steps=50000000 \
+    seed=$SEED \
+    wandb.mode=online \
+    wandb.entity=$WANDB_ENTITY \
+    wandb.project=$WANDB_PROJECT
+
+echo "Training completed!"
--- a/submit_dmc_experiments.py
+++ b/submit_dmc_experiments.py
@ -0,0 +1,98 @@
+#!/usr/bin/env python3
+"""
+Submit DMC (mujoco_playground) experiments for REPPO
+"""
+
+import subprocess
+import time
+import argparse
+
+# List of 23 DMC tasks from experiment plan
+DMC_TASKS = [
+    "AcrobotSwingup",
+    "CartpoleBalance", 
+    "CartpoleSwingup",
+    "CheetahRun",
+    "FingerSpin",
+    "FingerTurnEasy",
+    "FingerTurnHard",
+    "FishUpright",
+    "FishSwim",
+    "HopperStand",
+    "HopperHop",
+    "HumanoidStand",
+    "HumanoidWalk",
+    "HumanoidRun",
+    "ManipulatorBringBall",
+    "PendulumSwingup",
+    "PointMassEasy",
+    "ReacherEasy",
+    "ReacherHard",
+    "SwimmerSwimmer6",
+    "SwimmerSwimmer15",
+    "WalkerStand",
+    "WalkerWalk",
+    "WalkerRun"
+]
+
+def submit_job(env_name, seed=0):
+    """Submit a single DMC job"""
+    cmd = [
+        "sbatch", 
+        f"--job-name=reppo_dmc_{env_name}_seed{seed}",
+        "slurm/run_reppo_dmc_prod.sh"
+    ]
+    
+    env_vars = {
+        "ENV_NAME": env_name,
+        "SEED": str(seed)
+    }
+    
+    print(f"Submitting {env_name} (seed {seed})...")
+    
+    try:
+        result = subprocess.run(cmd, env={**subprocess.os.environ, **env_vars}, 
+                              capture_output=True, text=True, check=True)
+        job_id = result.stdout.strip().split()[-1]
+        print(f"  -> Job ID: {job_id}")
+        return job_id
+    except subprocess.CalledProcessError as e:
+        print(f"  -> Error: {e}")
+        print(f"  -> Stdout: {e.stdout}")
+        print(f"  -> Stderr: {e.stderr}")
+        return None
+
+def main():
+    parser = argparse.ArgumentParser(description="Submit DMC experiments")
+    parser.add_argument("--seeds", type=int, default=5, help="Number of seeds to run")
+    parser.add_argument("--tasks", nargs="+", default=DMC_TASKS, 
+                       help="List of tasks to run")
+    parser.add_argument("--delay", type=float, default=1.0,
+                       help="Delay between submissions (seconds)")
+    
+    args = parser.parse_args()
+    
+    print(f"Submitting {len(args.tasks)} DMC tasks with {args.seeds} seeds each")
+    print(f"Total jobs: {len(args.tasks) * args.seeds}")
+    print()
+    
+    job_ids = []
+    
+    for task in args.tasks:
+        for seed in range(args.seeds):
+            job_id = submit_job(task, seed)
+            if job_id:
+                job_ids.append(job_id)
+            
+            # Add delay to avoid overwhelming the scheduler
+            time.sleep(args.delay)
+    
+    print(f"\nSubmitted {len(job_ids)} jobs successfully:")
+    for i, job_id in enumerate(job_ids):
+        print(f"  {i+1}: {job_id}")
+    
+    print(f"\nMonitor with: squeue -u $USER")
+    print(f"Check logs in: logs/")
+
+if __name__ == "__main__":
+    main()