fix action space bugs for bp

2022-05-03 21:34:39 +02:00 · 2022-05-03 21:34:39 +02:00 · 640f3b2d90
commit 640f3b2d90
parent 2fbde9fbb1
2 changed files with 3 additions and 3 deletions
--- a/alr_envs/alr/mujoco/beerpong/new_mp_wrapper.py
+++ b/alr_envs/alr/mujoco/beerpong/new_mp_wrapper.py
@ -38,7 +38,7 @@ class NewMPWrapper(EpisodicWrapper):
            min_action_bounds, max_action_bounds = self.mp.get_param_bounds()
            min_action_bounds = np.concatenate((min_action_bounds.numpy(), [self.env.action_space.low[-1]]))
            max_action_bounds = np.concatenate((max_action_bounds.numpy(), [self.env.action_space.high[-1]]))
-            self.mp_action_space = gym.spaces.Box(low=min_action_bounds, high=max_action_bounds, dtype=np.float32)
-            return self.mp_action_space
+            self.action_space = gym.spaces.Box(low=min_action_bounds, high=max_action_bounds, dtype=np.float32)
+            return self.action_space
        else:
            return super(NewMPWrapper, self).set_action_space()
--- a/alr_envs/mp/episodic_wrapper.py
+++ b/alr_envs/mp/episodic_wrapper.py
@ -70,7 +70,7 @@ class EpisodicWrapper(gym.Env, ABC):
        ignore_indices = int(self.mp.learn_tau) + int(self.mp.learn_delay)
        scaled_mp_params = action.copy()
        scaled_mp_params[ignore_indices:] *= self.weight_scale
-        self.mp.set_params(scaled_mp_params)
+        self.mp.set_params(np.clip(scaled_mp_params, self.mp_action_space.low, self.mp_action_space.high))
        self.mp.set_boundary_conditions(bc_time=self.time_steps[:1], bc_pos=self.current_pos, bc_vel=self.current_vel)
        traj_dict = self.mp.get_mp_trajs(get_pos = True, get_vel = True)
        trajectory_tensor, velocity_tensor = traj_dict['pos'], traj_dict['vel']