#!/bin/bash
#SBATCH --job-name=dppo_square_ft
#SBATCH --account=hk-project-p0022232
#SBATCH --partition=dev_accelerated
#SBATCH --gres=gpu:1
#SBATCH --nodes=1
#SBATCH --ntasks-per-node=1
#SBATCH --cpus-per-task=8
#SBATCH --time=00:30:00
#SBATCH --mem=24G
#SBATCH --output=logs/dppo_square_ft_%j.out
#SBATCH --error=logs/dppo_square_ft_%j.err

module load devel/cuda/12.4

# MuJoCo environment for fine-tuning
export MUJOCO_PY_MUJOCO_PATH=$HOME/.mujoco/mujoco210
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$HOME/.mujoco/mujoco210/bin:/usr/lib/nvidia
export MUJOCO_GL=egl

# Environment variables
export WANDB_MODE=online
export DPPO_WANDB_ENTITY=${DPPO_WANDB_ENTITY:-"dominik_roth"}
export DPPO_DATA_DIR=${DPPO_DATA_DIR:-$SLURM_SUBMIT_DIR/data}
export DPPO_LOG_DIR=${DPPO_LOG_DIR:-$SLURM_SUBMIT_DIR/log}

cd $SLURM_SUBMIT_DIR
source .venv/bin/activate

# Apply HoReKa MuJoCo compilation fix
echo "Applying HoReKa MuJoCo compilation fix..."
python -c "exec(open('fix_mujoco_compilation.py').read()); apply_mujoco_fix(); import mujoco_py; print('MuJoCo ready!')"

echo "Testing robomimic square fine-tuning..."
python script/run.py --config-name=ft_ppo_diffusion_mlp \
    --config-dir=cfg/robomimic/finetune/square \
    train.n_train_itr=50 \
    train.save_model_freq=25