Trying to get kl to work

2022-07-01 13:45:58 +02:00 · 2022-07-01 13:45:58 +02:00 · 84d1cda96c
commit 84d1cda96c
parent 9d7ce73a0b
1 changed files with 11 additions and 2 deletions
--- a/metastable_baselines/misc/rollout_buffer.py
+++ b/metastable_baselines/misc/rollout_buffer.py
@ -7,6 +7,9 @@ from gym import spaces
 from stable_baselines3.common.buffers import RolloutBuffer
 from stable_baselines3.common.vec_env import VecNormalize
 # TRL requires the origina mean and covariance from the policy when the datapoint was created.
 # GaussianRolloutBuffer extends the RolloutBuffer by these two fields
 class GaussianRolloutBufferSamples(NamedTuple):
    observations: th.Tensor
@ -29,18 +32,24 @@ class GaussianRolloutBuffer(RolloutBuffer):
        gae_lambda: float = 1,
        gamma: float = 0.99,
        n_envs: int = 1,
        cov_shape=None,
    ):
        super().__init__(buffer_size, observation_space, action_space,
                         device, n_envs=n_envs, gae_lambda=gae_lambda, gamma=gamma)
        self.means, self.stds = None, None
        # TODO: Correct shape for full cov matrix
        # self.action_space.shape + self.action_space.shape
        if cov_shape == None:
            cov_shape = self.action_space.shape
        self.cov_shape = cov_shape
    def reset(self) -> None:
        self.means = np.zeros(
            (self.buffer_size, self.n_envs) + self.action_space.shape, dtype=np.float32)
        self.stds = np.zeros(
-            # (self.buffer_size, self.n_envs) + self.action_space.shape + self.action_space.shape, dtype=np.float32)
+            (self.buffer_size, self.n_envs) + self.cov_shape, dtype=np.float32)
            (self.buffer_size, self.n_envs) + self.action_space.shape, dtype=np.float32)
        super().reset()
    def add(