Add HoReKa cluster support with SLURM scripts and wandb integration

- Add SLURM job scripts for ManiSkill and Brax environments - Add job submission helper script with environment validation - Update README with HoReKa installation and usage instructions - Create logs directory structure - Configure wandb integration (requires external API key setup)
2025-07-22 16:15:36 +02:00 · 2025-07-22 16:15:36 +02:00 · 137b9e80c9
commit 137b9e80c9
parent e2f99648ae
4 changed files with 231 additions and 0 deletions
--- a/README.md
+++ b/README.md
@ -11,6 +11,83 @@ Our repo provides you with the core algorithm and the following features:
 - Modern installation: Our algorithm and environment dependencies can be installed with a single command
 - Fast and reliable learning: REPPO is wallclock time competitive with approaches such as FastTD3 and PPO, while learning reliably and with minimal hyperparameter tuning
 ## HoReKa Cluster Setup
 *Added by Dominik*
 ### Installation on HoReKa
 1. **Clone the repository and navigate to it:**
   ```bash
   git clone <repository-url>
   cd reppo
   ```
 2. **Create virtual environment with Python 3.12:**
   ```bash
   python3.12 -m venv .venv
   source .venv/bin/activate
   ```
 3. **Install the package and dependencies:**
   ```bash
   pip install --upgrade pip
   pip install -e .
   ```
 ### Running on HoReKa
 The repository includes pre-configured SLURM scripts with wandb integration:
 #### Quick Start
 ```bash
 # Submit a ManiSkill job
 ./submit_job.sh maniskill PickCube-v1 mjx_dmc_medium_data
 # Submit a Brax job  
 ./submit_job.sh brax ant mjx_dmc_small_data
 ```
 #### Manual Job Submission
 ```bash
 # Submit ManiSkill experiments
 sbatch slurm/run_reppo_maniskill.sh
 # Submit Brax experiments
 sbatch slurm/run_reppo_brax.sh
 # With custom environment
 ENV_NAME=PlaceApple-v1 EXPERIMENT_TYPE=mjx_dmc_large_data sbatch slurm/run_reppo_maniskill.sh
 ```
 #### Supported Environments
 **ManiSkill environments:**
 - `PickCube-v1`, `PlaceApple-v1`, `StackCube-v1`, `PegInsertionSide-v1`
 **Brax environments:**
 - `ant`, `cheetah`, `hopper`, `walker2d`, `humanoid`
 **Experiment types:**
 - `mjx_dmc_small_data` (32k samples)
 - `mjx_dmc_medium_data` (512k samples) 
 - `mjx_dmc_large_data` (1M samples)
 #### Monitoring Jobs
 ```bash
 # Check job status
 squeue -u $USER
 # View live logs
 tail -f logs/reppo_maniskill_<job_id>.out
 tail -f logs/reppo_brax_<job_id>.out
 ```
 All experiments automatically log to wandb with your configured credentials. Results will appear in projects `reppo_maniskill` and `reppo_brax`.
 ---
 ## Original README
 ## Installation
 We strongly recommend using the [uv tool](https://docs.astral.sh/uv/getting-started/installation/) for python dependency management.
--- a/slurm/run_reppo_brax.sh
+++ b/slurm/run_reppo_brax.sh
@ -0,0 +1,52 @@
 #!/bin/bash
 #SBATCH --job-name=reppo_brax
 #SBATCH --account=hk-project-p0022232
 #SBATCH --partition=accelerated
 #SBATCH --gres=gpu:1
 #SBATCH --nodes=1
 #SBATCH --ntasks-per-node=1
 #SBATCH --cpus-per-task=8
 #SBATCH --time=04:00:00
 #SBATCH --mem=24G
 #SBATCH --output=logs/reppo_brax_%j.out
 #SBATCH --error=logs/reppo_brax_%j.err
 # Load required modules
 module load devel/cuda/12.4
 # Set environment variables
 export WANDB_MODE=online
 export WANDB_PROJECT=reppo_brax
 # Change to project directory
 cd /hkfs/home/project/hk-project-robolear/ys1087/Projects/reppo
 # Activate virtual environment
 source .venv/bin/activate
 # Note: Ensure WANDB_API_KEY and WANDB_ENTITY are set before running
 # Run REPPO with Brax environment
 echo "Starting REPPO training with Brax..."
 echo "Job ID: $SLURM_JOB_ID"
 echo "Node: $SLURM_NODELIST"
 echo "GPU: $CUDA_VISIBLE_DEVICES"
 # Default environment: ant (can be overridden)
 ENV_NAME=${ENV_NAME:-ant}
 EXPERIMENT_TYPE=${EXPERIMENT_TYPE:-mjx_dmc_small_data}
 echo "Environment: $ENV_NAME"
 echo "Experiment type: $EXPERIMENT_TYPE"
 # Run the experiment
 python reppo_alg/jaxrl/reppo.py \
    env=brax \
    env_name=$ENV_NAME \
    experiment_override=$EXPERIMENT_TYPE \
    wandb.mode=online \
    wandb.entity=${WANDB_ENTITY} \
    wandb.project=$WANDB_PROJECT \
    wandb.name="reppo_${ENV_NAME}_${EXPERIMENT_TYPE}_${SLURM_JOB_ID}"
 echo "Training completed!"
--- a/slurm/run_reppo_maniskill.sh
+++ b/slurm/run_reppo_maniskill.sh
@ -0,0 +1,52 @@
 #!/bin/bash
 #SBATCH --job-name=reppo_maniskill
 #SBATCH --account=hk-project-p0022232
 #SBATCH --partition=accelerated
 #SBATCH --gres=gpu:1
 #SBATCH --nodes=1
 #SBATCH --ntasks-per-node=1
 #SBATCH --cpus-per-task=8
 #SBATCH --time=08:00:00
 #SBATCH --mem=32G
 #SBATCH --output=logs/reppo_maniskill_%j.out
 #SBATCH --error=logs/reppo_maniskill_%j.err
 # Load required modules
 module load devel/cuda/12.4
 # Set environment variables
 export WANDB_MODE=online
 export WANDB_PROJECT=reppo_maniskill
 # Change to project directory
 cd /hkfs/home/project/hk-project-robolear/ys1087/Projects/reppo
 # Activate virtual environment
 source .venv/bin/activate
 # Note: Ensure WANDB_API_KEY and WANDB_ENTITY are set before running
 # Run REPPO with ManiSkill environment
 echo "Starting REPPO training with ManiSkill..."
 echo "Job ID: $SLURM_JOB_ID"
 echo "Node: $SLURM_NODELIST"
 echo "GPU: $CUDA_VISIBLE_DEVICES"
 # Default environment: PickCube-v1 (can be overridden)
 ENV_NAME=${ENV_NAME:-PickCube-v1}
 EXPERIMENT_TYPE=${EXPERIMENT_TYPE:-mjx_dmc_medium_data}
 echo "Environment: $ENV_NAME"
 echo "Experiment type: $EXPERIMENT_TYPE"
 # Run the experiment
 python reppo_alg/jaxrl/reppo.py \
    env=maniskill \
    env_name=$ENV_NAME \
    experiment_override=$EXPERIMENT_TYPE \
    wandb.mode=online \
    wandb.entity=${WANDB_ENTITY} \
    wandb.project=$WANDB_PROJECT \
    wandb.name="reppo_${ENV_NAME}_${EXPERIMENT_TYPE}_${SLURM_JOB_ID}"
 echo "Training completed!"
--- a/submit_job.sh
+++ b/submit_job.sh
@ -0,0 +1,50 @@
 #!/bin/bash
 # Submit REPPO jobs to SLURM
 # Usage: ./submit_job.sh [environment_type] [env_name] [experiment_type]
 set -e
 SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
 cd "$SCRIPT_DIR"
 # Default values
 ENV_TYPE=${1:-maniskill}
 ENV_NAME=${2:-PickCube-v1}
 EXPERIMENT_TYPE=${3:-mjx_dmc_medium_data}
 echo "Submitting REPPO job..."
 echo "Environment type: $ENV_TYPE"
 echo "Environment name: $ENV_NAME"
 echo "Experiment type: $EXPERIMENT_TYPE"
 case $ENV_TYPE in
    maniskill)
        echo "Submitting ManiSkill job..."
        ENV_NAME="$ENV_NAME" EXPERIMENT_TYPE="$EXPERIMENT_TYPE" sbatch slurm/run_reppo_maniskill.sh
        ;;
    brax)
        echo "Submitting Brax job..."
        ENV_NAME="$ENV_NAME" EXPERIMENT_TYPE="$EXPERIMENT_TYPE" sbatch slurm/run_reppo_brax.sh
        ;;
    *)
        echo "Unknown environment type: $ENV_TYPE"
        echo "Supported types: maniskill, brax"
        exit 1
        ;;
 esac
 echo ""
 echo "Job submitted! Check status with:"
 echo "  squeue -u $USER"
 echo ""
 echo "Check logs in: logs/ directory"
 echo ""
 echo "Available ManiSkill environments:"
 echo "  PickCube-v1, PlaceApple-v1, StackCube-v1, PegInsertionSide-v1"
 echo ""
 echo "Available Brax environments:"  
 echo "  ant, cheetah, hopper, walker2d, humanoid"
 echo ""
 echo "Available experiment types:"
 echo "  mjx_dmc_small_data (32k), mjx_dmc_medium_data (512k), mjx_dmc_large_data (1M)"