cleanup

2025-07-15 22:40:47 -07:00 · 2025-07-15 22:40:47 -07:00 · 25bdedc780
commit 25bdedc780
parent 011cbce7f8
4 changed files with 9 additions and 106 deletions
--- a/config/experiment_overrides/default.yaml
+++ b/config/experiment_overrides/default.yaml
--- a/config/sac.yaml
+++ b/config/sac.yaml
@ -1,89 +0,0 @@
 defaults:
  - env: brax
  - experiment_overrides: default
  - trial_spec: default
  - platform: torch
  - _self_
 hyperparameters:
  # env and run settings (mostly don't touch)
  total_time_steps: 50_000_000
  normalize_env: true
  max_episode_steps: 1000
  eval_interval: 2
  num_eval: 20
  # optimization settings (seem very stable)
  lr: 3e-4
  anneal_lr: false
  max_grad_norm: 0.5
  polyak: 1.0 # maybe ablate ?
  # problem discount settings (need tuning)
  gamma: 0.99
  lmbda: 0.95
  lmbda_min: 0.50 # irrelevant if no exploration noise is added
  # batch settings (need tuning for MJX humanoid)
  num_steps: 128
  num_mini_batches: 128
  num_envs: 1024
  num_epochs: 4
  # exploration settings (currently not touched)
  exploration_noise_max: 1.0
  exploration_noise_min: 1.0
  exploration_base_envs: 0
  # critic architecture settings (need to be increased for MJX humanoid)
  critic_hidden_dim: 512
  actor_hidden_dim: 512
  vmin: ${env.vmin}
  vmax: ${env.vmax}
  num_bins: 151
  hl_gauss: true
  use_critic_norm: true
  num_critic_encoder_layers: 2
  num_critic_head_layers: 2
  num_critic_pred_layers: 2
  use_simplical_embedding: False
  # actor architecture settings (seem stable)
  use_actor_norm: true
  num_actor_layers: 3
  actor_min_std: 0.0
  # actor & critic loss settings (seem remarkably stable)
  ## kl settings
  kl_start: 0.01
  kl_bound: 0.1 # switched to tighter bounds for MJX
  reduce_kl: true
  reverse_kl: false # previous default "false"
  update_kl_lagrangian: true
  actor_kl_clip_mode: "clipped" # "full", "clipped", "kl_relu_clipped", "kl_bound_clipped", "value"
  ## entropy settings
  ent_start: 0.01
  ent_target_mult: 0.5
  update_entropy_lagrangian: true
  ## auxiliary loss settings
  aux_loss_mult: 1.0
 measure_burnin: 3
 name: "sac"
 seed: 0
 num_seeds: 1
 tune: false
 checkpoint_dir: null
 num_trials: 10
 tags: ["experimental"]
 wandb:
  mode: "online" # set to online to activate wandb
  entity: "viper_svg"
  project: "online_sac"
 hydra:
  job:
    chdir: True
--- a/src/jaxrl/ppo_mjx.py
+++ b/src/jaxrl/ppo_mjx.py
@ -565,7 +565,6 @@ def make_train_fn(
            num_train_steps % eval_interval != 0
        )
        key, init_key = jax.random.split(key)
        # TWK ??: We retain the same initial state for each of the seeds across all episodes?
        train_state = jax.vmap(make_init(cfg, env, env_params))(
            jax.random.split(init_key, num_seeds)
        )
@ -578,9 +577,6 @@ def make_train_fn(
 def plot_history(history: list[dict[str, jax.Array]]):
    """
    TODO -- TWK: Possibly remove this...
    """
    steps = jnp.array([m["time_step"][0] for m in history])
    eval_return = jnp.array([m["eval/episode_return"].mean() for m in history])
    eval_return_std = jnp.array([m["eval/episode_return"].std() for m in history])
@ -692,10 +688,6 @@ def run(cfg: DictConfig):
 def tune(cfg: DictConfig):
    """
    TODO: Signature + also adjusting to run tuning for Brax environments as well
    """
    def log_callback(state, metrics):
        episode_return = metrics["eval/episode_return"].mean()
        t = state.time_steps[0]
--- a/src/torchrl/fast_td3.py
+++ b/src/torchrl/fast_td3.py
@ -29,7 +29,7 @@ import torch
 import torch.nn as nn
 import torch.nn.functional as F
 import torch.optim as optim
-from fast_sac_utils import (
+from src.torchrl.reppo_util import (
    EmpiricalNormalization,
    PerTaskRewardNormalizer,
    RewardNormalizer,
@ -90,7 +90,7 @@ def main():
    print(f"Using device: {device}")
    if args.env_name.startswith("h1hand-") or args.env_name.startswith("h1-"):
-        from reppo.env_utils.torch_wrappers.humanoid_bench_env import (
+        from src.env_utils.torch_wrappers.humanoid_bench_env import (
            HumanoidBenchEnv,
        )
@ -98,7 +98,7 @@ def main():
        envs = HumanoidBenchEnv(args.env_name, args.num_envs, device=device)
        eval_envs = envs
    elif args.env_name.startswith("Isaac-"):
-        from reppo.env_utils.torch_wrappers.isaaclab_env import IsaacLabEnv
+        from src.env_utils.torch_wrappers.isaaclab_env import IsaacLabEnv
        env_type = "isaaclab"
        envs = IsaacLabEnv(
@ -110,14 +110,14 @@ def main():
        )
        eval_envs = envs
    elif args.env_name.startswith("MTBench-"):
-        from reppo.env_utils.torch_wrappers.mtbench_env import MTBenchEnv
+        from src.env_utils.torch_wrappers.mtbench_env import MTBenchEnv
        env_name = "-".join(args.env_name.split("-")[1:])
        env_type = "mtbench"
        envs = MTBenchEnv(env_name, args.device_rank, args.num_envs, args.seed)
        eval_envs = envs
    else:
-        from reppo.env_utils.torch_wrappers.mujoco_playground_env import make_env
+        from src.env_utils.torch_wrappers.mujoco_playground_env import make_env
        # TODO: Check if re-using same envs for eval could reduce memory usage
        env_type = "mujoco_playground"
@ -198,7 +198,7 @@ def main():
    if args.agent == "fasttd3":
        if env_type in ["mtbench"]:
-            from reppo.network_utils.fast_td3_nets import (
+            from src.network_utils.fast_td3_nets import (
                MultiTaskActor,
                MultiTaskCritic,
            )
@ -206,7 +206,7 @@ def main():
            actor_cls = MultiTaskActor
            critic_cls = MultiTaskCritic
        else:
-            from reppo.network_utils.fast_td3_nets import Actor, Critic
+            from src.network_utils.fast_td3_nets import Actor, Critic
            actor_cls = Actor
            critic_cls = Critic
@ -214,7 +214,7 @@ def main():
        print("Using FastTD3")
    elif args.agent == "fasttd3_simbav2":
        if env_type in ["mtbench"]:
-            from reppo.network_utils.fast_td3_nets_simbav2 import (
+            from src.network_utils.fast_td3_nets_simbav2 import (
                MultiTaskActor,
                MultiTaskCritic,
            )
@ -222,7 +222,7 @@ def main():
            actor_cls = MultiTaskActor
            critic_cls = MultiTaskCritic
        else:
-            from reppo.network_utils.fast_td3_nets_simbav2 import Actor, Critic
+            from src.network_utils.fast_td3_nets_simbav2 import Actor, Critic
            actor_cls = Actor
            critic_cls = Critic