updates

2021-01-14 17:10:03 +01:00 · 2021-01-14 17:10:03 +01:00 · b7400c477d
commit b7400c477d
parent 104281fe16
5 changed files with 47 additions and 6 deletions
--- a/alr_envs/classic_control/hole_reacher.py
+++ b/alr_envs/classic_control/hole_reacher.py
@ -1,7 +1,5 @@
 import gym
 import numpy as np
-import matplotlib
-matplotlib.use('TkAgg')
 import matplotlib.pyplot as plt
 from matplotlib import patches

@ -112,7 +110,7 @@ class HoleReacher(gym.Env):
        if self._is_collided:
            reward -= self.collision_penalty

-        info = {}
+        info = {"is_collided": self._is_collided}

        self._steps += 1

@ -286,6 +284,10 @@ class HoleReacher(gym.Env):

                plt.pause(0.01)

+    def close(self):
+        if self.fig is not None:
+            plt.close(self.fig)
+

 if __name__ == '__main__':
    nl = 5
@ -306,3 +308,5 @@ if __name__ == '__main__':

        if done:
            break
+
+    env.close()
--- a/alr_envs/classic_control/utils.py
+++ b/alr_envs/classic_control/utils.py
@ -0,0 +1,34 @@
+from alr_envs.classic_control.hole_reacher import HoleReacher
+from alr_envs.utils.dmp_env_wrapper import DmpEnvWrapperVel
+
+
+def make_env(rank, seed=0):
+    """
+    Utility function for multiprocessed env.
+
+    :param env_id: (str) the environment ID
+    :param num_env: (int) the number of environments you wish to have in subprocesses
+    :param seed: (int) the initial seed for RNG
+    :param rank: (int) index of the subprocess
+    :returns a function that generates an environment
+    """
+
+    def _init():
+        env = HoleReacher(num_links=5,
+                          allow_self_collision=False,
+                          allow_wall_collision=False,
+                          hole_width=0.15,
+                          hole_depth=1,
+                          hole_x=1,
+                          collision_penalty=100000)
+
+        env = DmpEnvWrapperVel(env,
+                               num_dof=5,
+                               num_basis=5,
+                               duration=2,
+                               dt=env._dt,
+                               learn_goal=True)
+        env.seed(seed + rank)
+        return env
+
+    return _init
--- a/alr_envs/utils/dmp_async_vec_env.py
+++ b/alr_envs/utils/dmp_async_vec_env.py
@ -96,7 +96,7 @@ class DmpAsyncVectorEnv(gym.vector.AsyncVectorEnv):
        # return (deepcopy(self.observations) if self.copy else self.observations,
        #         np.array(rewards), np.array(dones, dtype=np.bool_), infos)

-        return np.array(rewards)
+        return np.array(rewards), infos

    def rollout(self, actions):
        self.rollout_async(actions)
@ -134,6 +134,7 @@ def _worker(index, env_fn, pipe, parent_pipe, shared_memory, error_queue):
                env.seed(data)
                pipe.send((None, True))
            elif command == 'close':
+                env.close()
                pipe.send((None, True))
                break
            elif command == 'idle':
--- a/alr_envs/utils/dmp_env_wrapper.py
+++ b/alr_envs/utils/dmp_env_wrapper.py
@ -113,18 +113,19 @@ class DmpEnvWrapperVel(DmpEnvWrapperBase):
        trajectory, velocities = self.dmp.reference_trajectory(self.t)

        rews = []
+        infos = []

        self.env.reset()

        for t, vel in enumerate(velocities):
            obs, rew, done, info = self.env.step(vel)
            rews.append(rew)
+            infos.append(info)
            if render:
                self.env.render(mode="human")
            if done:
                break

        reward = np.sum(rews)
-        info = {}

        return obs, reward, done, info
--- a/setup.py
+++ b/setup.py
@ -2,5 +2,6 @@ from setuptools import setup

 setup(name='alr_envs',
      version='0.0.1',
-      install_requires=['gym', 'PyQt5', 'matplotlib']  # And any other dependencies foo needs
+      install_requires=['gym', 'PyQt5', 'matplotlib',
+                        'mp_lib @ git+https://git@github.com/maxhuettenrauch/mp_lib@master#egg=mp_lib',],  # And any other dependencies foo needs
      )