Hotfix for exploding gradients

2022-11-03 20:13:36 +01:00 · 2022-11-03 20:13:36 +01:00 · 479d73ac4b
commit 479d73ac4b
parent 82a174122a
1 changed files with 16 additions and 1 deletions
--- a/metastable_baselines/ppo/ppo.py
+++ b/metastable_baselines/ppo/ppo.py
@ -25,6 +25,8 @@ from metastable_projections.projections.kl_projection_layer import KLProjectionL
 from ..misc.rollout_buffer import GaussianRolloutCollectorAuxclass
 from copy import deepcopy
 class PPO(GaussianRolloutCollectorAuxclass, OnPolicyAlgorithm):
    """
@ -228,10 +230,14 @@ class PPO(GaussianRolloutCollectorAuxclass, OnPolicyAlgorithm):
        pg_losses, value_losses = [], []
        clip_fractions = []
        setbackCtr = 0
        bak = deepcopy(self.policy.state_dict())
        continue_training = True
        # train for n_epochs epochs
        for epoch in range(self.n_epochs):
            # self.policy.load_state_dict(
            approx_kl_divs = []
            # Do a complete pass on the rollout buffer
            for rollout_data in self.rollout_buffer.get(self.batch_size):
@ -253,7 +259,16 @@ class PPO(GaussianRolloutCollectorAuxclass, OnPolicyAlgorithm):
                pol = self.policy
                features = pol.extract_features(rollout_data.observations)
                latent_pi, latent_vf = pol.mlp_extractor(features)
                try:
                    p = pol._get_action_dist_from_latent(latent_pi)
                except ValueError:
                    self.policy.load_state_dict(bak)
                    setbackCtr += 1
                    print(
                        '[!] Gradients Exploded; reseting to last known states (setback number '+str(setbackCtr)+')')
                    break
                del bak
                bak = deepcopy(self.policy.state_dict())
                p_dist = p.distribution
                if isinstance(self.projection, WassersteinProjectionLayer):
                    q_dist = new_dist_like_from_sqrt(