Oh, I could start using git...

2024-05-29 21:21:43 +02:00 · 2024-05-29 21:21:43 +02:00 · 8946362336
commit 8946362336
12 changed files with 494 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,4 @@
+__pycache__
+.venv
+wandb
+*.egg-info/
--- a/README.md
+++ b/README.md
@ -0,0 +1,53 @@
+# Fancy RL
+
+Fancy RL is a minimalistic and efficient implementation of Proximal Policy Optimization (PPO) and Trust Region Policy Layers (TRPL) using primitives from [torchrl](https://pypi.org/project/torchrl/). Future plans include implementing Soft Actor-Critic (SAC). This library focuses on providing clean and understandable code while leveraging the powerful functionalities of torchrl.
+We provide optional integration with wandb.
+
+## Installation
+
+Fancy RL requires Python 3.7-3.11. (TorchRL currently does not support Python 3.12)
+
+```bash
+pip install -e .
+```
+
+## Usage
+
+Here's a basic example of how to train a PPO agent with Fancy RL:
+
+```python
+from fancy_rl.ppo import PPO
+from fancy_rl.policy import Policy
+import gymnasium as gym
+
+def env_fn():
+    return gym.make("CartPole-v1")
+
+# Create policy
+env = env_fn()
+policy = Policy(env.observation_space, env.action_space)
+
+# Create PPO instance with default config
+ppo = PPO(policy=policy, env_fn=env_fn)
+
+# Train the agent
+ppo.train()
+```
+
+For a more complete function description and advanced usage, refer to `example/example.py`.
+
+### Testing
+
+To run the test suite:
+
+```bash
+pytest test/test_ppo.py
+```
+
+## Contributing
+
+Contributions are welcome! Feel free to open issues or submit pull requests to enhance the library.
+
+## License
+
+This project is licensed under the MIT License.
--- a/example/config.yaml
+++ b/example/config.yaml
@ -0,0 +1,25 @@
+policy:
+  input_dim: 4
+  output_dim: 2
+  hidden_sizes: [64, 64]
+
+ppo:
+  learning_rate: 3e-4
+  n_steps: 2048
+  batch_size: 64
+  n_epochs: 10
+  gamma: 0.99
+  gae_lambda: 0.95
+  clip_range: 0.2
+  total_timesteps: 1000000
+  eval_interval: 2048
+  eval_deterministic: true
+  eval_episodes: 10
+  seed: 42
+
+loggers:
+  - type: terminal
+  - type: wandb
+    project: "PPO_project"
+    entity: "your_entity"
+    push_interval: 10
--- a/example/example.py
+++ b/example/example.py
@ -0,0 +1,37 @@
+import yaml
+import torch
+from fancy_rl.ppo import PPO
+from fancy_rl.policy import Policy
+from fancy_rl.loggers import TerminalLogger, WandbLogger
+import gymnasium as gym
+
+def main(config_file):
+    with open(config_file, 'r') as file:
+        config = yaml.safe_load(file)
+
+    env_fn = lambda: gym.make("CartPole-v1")
+    env = env_fn()
+
+    policy_config = config['policy']
+    policy = Policy(env=env, hidden_sizes=policy_config['hidden_sizes'])
+
+    ppo_config = config['ppo']
+    loggers_config = config['loggers']
+
+    loggers = []
+    for logger_config in loggers_config:
+        logger_type = logger_config.pop('type')
+        if logger_type == 'terminal':
+            loggers.append(TerminalLogger(**logger_config))
+        elif logger_type == 'wandb':
+            loggers.append(WandbLogger(**logger_config))
+
+    ppo = PPO(policy=policy,
+              env_fn=env_fn,
+              loggers=loggers,
+              **ppo_config)
+
+    ppo.train()
+
+if __name__ == "__main__":
+    main("example/config.yaml")
--- a/fancy_rl/init.py
+++ b/fancy_rl/init.py
@ -0,0 +1,6 @@
+from fancy_rl.ppo import PPO
+from fancy_rl.policy import MLPPolicy
+from fancy_rl.loggers import TerminalLogger, WandbLogger
+from fancy_rl.utils import make_env
+
+__all__ = ["PPO", "MLPPolicy", "TerminalLogger", "WandbLogger", "make_env"]
--- a/fancy_rl/loggers.py
+++ b/fancy_rl/loggers.py
@ -0,0 +1,36 @@
+class Logger:
+    def __init__(self, push_interval=1):
+        self.data = {}
+        self.push_interval = push_interval
+
+    def log(self, key, value, epoch):
+        if key not in self.data:
+            self.data[key] = []
+        self.data[key].append((epoch, value))
+
+    def end_of_epoch(self, epoch):
+        if epoch % self.push_interval == 0:
+            self.push()
+
+    def push(self):
+        raise NotImplementedError("Push method should be implemented by subclasses")
+
+class TerminalLogger(Logger):
+    def push(self):
+        for key, values in self.data.items():
+            for epoch, value in values:
+                print(f"Epoch {epoch}: {key} = {value}")
+        self.data = {}
+
+class WandbLogger(Logger):
+    def __init__(self, project, entity, config, push_interval=1):
+        super().__init__(push_interval)
+        import wandb
+        self.wandb = wandb
+        self.wandb.init(project=project, entity=entity, config=config)
+
+    def push(self):
+        for key, values in self.data.items():
+            for epoch, value in values:
+                self.wandb.log({key: value, 'epoch': epoch})
+        self.data = {}
--- a/fancy_rl/on_policy.py
+++ b/fancy_rl/on_policy.py
@ -0,0 +1,131 @@
+import torch
+from abc import ABC, abstractmethod
+from fancy_rl.loggers import Logger
+from torch.optim import Adam
+
+class OnPolicy(ABC):
+    def __init__(
+        self,
+        policy,
+        env_fn,
+        loggers,
+        learning_rate,
+        n_steps,
+        batch_size,
+        n_epochs,
+        gamma,
+        gae_lambda,
+        total_timesteps,
+        eval_interval,
+        eval_deterministic,
+        entropy_coef,
+        critic_coef,
+        normalize_advantage,
+        device=None,
+        **kwargs
+    ):
+        self.policy = policy
+        self.env_fn = env_fn
+        self.loggers = loggers
+        self.learning_rate = learning_rate
+        self.n_steps = n_steps
+        self.batch_size = batch_size
+        self.n_epochs = n_epochs
+        self.gamma = gamma
+        self.gae_lambda = gae_lambda
+        self.total_timesteps = total_timesteps
+        self.eval_interval = eval_interval
+        self.eval_deterministic = eval_deterministic
+        self.entropy_coef = entropy_coef
+        self.critic_coef = critic_coef
+        self.normalize_advantage = normalize_advantage
+        self.device = device if device else ("cuda" if torch.cuda.is_available() else "cpu")
+
+        self.kwargs = kwargs
+        self.clip_range = 0.2
+
+    def train(self):
+        self.env = self.env_fn()
+        self.env.reset(seed=self.kwargs.get("seed", None))
+
+        state = self.env.reset(seed=self.kwargs.get("seed", None))
+        episode_return = 0
+        episode_length = 0
+        for t in range(self.total_timesteps):
+            rollout = self.collect_rollouts(state)
+            for batch in self.get_batches(rollout):
+                loss = self.train_step(batch)
+                for logger in self.loggers:
+                    logger.log({
+                        "loss": loss.item()
+                    }, epoch=t)
+                    
+                if (t + 1) % self.eval_interval == 0:
+                    self.evaluate(t)
+
+    def evaluate(self, epoch):
+        eval_env = self.env_fn()
+        eval_env.reset(seed=self.kwargs.get("seed", None))
+        returns = []
+        for _ in range(self.kwargs.get("eval_episodes", 10)):
+            state = eval_env.reset(seed=self.kwargs.get("seed", None))
+            done = False
+            total_return = 0
+            while not done:
+                with torch.no_grad():
+                    action = (
+                        self.policy.act(state, deterministic=self.eval_deterministic)
+                        if self.eval_deterministic
+                        else self.policy.act(state)
+                    )
+                state, reward, done, _ = eval_env.step(action)
+                total_return += reward
+            returns.append(total_return)
+
+        avg_return = sum(returns) / len(returns)
+        for logger in self.loggers:
+            logger.log({"eval_avg_return": avg_return}, epoch=epoch)
+    
+    def collect_rollouts(self, state):
+        # Collect rollouts logic
+        rollouts = []
+        for _ in range(self.n_steps):
+            action = self.policy.act(state)
+            next_state, reward, done, _ = self.env.step(action)
+            rollouts.append((state, action, reward, next_state, done))
+            state = next_state
+            if done:
+                state = self.env.reset(seed=self.kwargs.get("seed", None))
+        return rollouts
+
+    def get_batches(self, rollouts):
+        data = self.prepare_data(rollouts)
+        n_batches = len(data) // self.batch_size
+        batches = []
+        for _ in range(n_batches):
+            batch_indices = torch.randint(0, len(data), (self.batch_size,))
+            batch = data[batch_indices]
+            batches.append(batch)
+        return batches
+
+    def prepare_data(self, rollouts):
+        obs, actions, rewards, next_obs, dones = zip(*rollouts)
+        obs = torch.tensor(obs, dtype=torch.float32)
+        actions = torch.tensor(actions, dtype=torch.int64)
+        rewards = torch.tensor(rewards, dtype=torch.float32)
+        next_obs = torch.tensor(next_obs, dtype=torch.float32)
+        dones = torch.tensor(dones, dtype=torch.float32)
+
+        data = {
+            "obs": obs,
+            "actions": actions,
+            "rewards": rewards,
+            "next_obs": next_obs,
+            "dones": dones
+        }
+        data = self.adv_module(data)
+        return data
+
+    @abstractmethod
+    def train_step(self, batch):
+        pass
--- a/fancy_rl/policy.py
+++ b/fancy_rl/policy.py
@ -0,0 +1,27 @@
+import torch
+from torch import nn
+
+class Policy(nn.Module):
+    def __init__(self, input_dim, output_dim, hidden_sizes=[64, 64]):
+        super().__init__()
+        layers = []
+        last_dim = input_dim
+        for size in hidden_sizes:
+            layers.append(nn.Linear(last_dim, size))
+            layers.append(nn.ReLU())
+            last_dim = size
+        layers.append(nn.Linear(last_dim, output_dim))
+        self.model = nn.Sequential(*layers)
+
+    def forward(self, x):
+        return self.model(x)
+
+    def act(self, observation, deterministic=False):
+        with torch.no_grad():
+            logits = self.forward(observation)
+            if deterministic:
+                action = logits.argmax(dim=-1)
+            else:
+                action_dist = torch.distributions.Categorical(logits=logits)
+                action = action_dist.sample()
+        return action
--- a/fancy_rl/ppo.py
+++ b/fancy_rl/ppo.py
@ -0,0 +1,98 @@
+import torch
+import gymnasium as gym
+from fancy_rl.policy import Policy
+from fancy_rl.loggers import TerminalLogger
+from fancy_rl.on_policy import OnPolicy
+from torchrl.objectives import ClipPPOLoss
+from torchrl.objectives.value.advantages import GAE
+
+class PPO(OnPolicy):
+    def __init__(
+        self,
+        policy,
+        env_fn,
+        loggers=None,
+        learning_rate=3e-4,
+        n_steps=2048,
+        batch_size=64,
+        n_epochs=10,
+        gamma=0.99,
+        gae_lambda=0.95,
+        total_timesteps=1e6,
+        eval_interval=2048,
+        eval_deterministic=True,
+        entropy_coef=0.01,
+        critic_coef=0.5,
+        normalize_advantage=True,
+        device=None,
+        clip_epsilon=0.2,
+        **kwargs
+    ):
+        if loggers is None:
+            loggers = [TerminalLogger(push_interval=1)]
+
+        super().__init__(
+            policy=policy,
+            env_fn=env_fn,
+            loggers=loggers,
+            learning_rate=learning_rate,
+            n_steps=n_steps,
+            batch_size=batch_size,
+            n_epochs=n_epochs,
+            gamma=gamma,
+            gae_lambda=gae_lambda,
+            total_timesteps=total_timesteps,
+            eval_interval=eval_interval,
+            eval_deterministic=eval_deterministic,
+            entropy_coef=entropy_coef,
+            critic_coef=critic_coef,
+            normalize_advantage=normalize_advantage,
+            device=device,
+            **kwargs
+        )
+        
+        self.clip_epsilon = clip_epsilon
+        self.adv_module = GAE(
+            gamma=self.gamma,
+            lmbda=self.gae_lambda,
+            value_network=self.policy,
+            average_gae=False,
+        )
+
+        self.loss_module = ClipPPOLoss(
+            actor_network=self.policy,
+            critic_network=self.policy,
+            clip_epsilon=self.clip_epsilon,
+            loss_critic_type='MSELoss',
+            entropy_coef=self.entropy_coef,
+            critic_coef=self.critic_coef,
+            normalize_advantage=self.normalize_advantage,
+        )
+
+        self.optimizer = torch.optim.Adam(self.policy.parameters(), lr=self.learning_rate)
+
+    def train_step(self, batch):
+        self.optimizer.zero_grad()
+        loss = self.loss_module(batch)
+        loss.backward()
+        self.optimizer.step()
+        return loss
+
+    def train(self):
+        self.env = self.env_fn()
+        self.env.reset(seed=self.kwargs.get("seed", None))
+
+        state = self.env.reset(seed=self.kwargs.get("seed", None))
+        episode_return = 0
+        episode_length = 0
+        for t in range(self.total_timesteps):
+            rollout = self.collect_rollouts(state)
+            for batch in self.get_batches(rollout):
+                loss = self.train_step(batch)
+                for logger in self.loggers:
+                    logger.log({
+                        "loss": loss.item()
+                    }, epoch=t)
+                    
+                if (t + 1) % self.eval_interval == 0:
+                    self.evaluate(t)
--- a/fancy_rl/utils.py
+++ b/fancy_rl/utils.py
@ -0,0 +1,4 @@
+import gymnasium as gym
+
+def make_env(env_name):
+    return lambda: gym.make(env_name)
--- a/setup.py
+++ b/setup.py
@ -0,0 +1,19 @@
+
+from setuptools import setup, find_packages
+
+setup(
+    name="fancy_rl",
+    version="0.1",
+    packages=find_packages(),
+    install_requires=[
+        "torch",
+        "torchrl",
+        "gymnasium",
+        "pyyaml",
+    ],
+    entry_points={
+        "console_scripts": [
+            "fancy_rl=fancy_rl.example:main",
+        ],
+    },
+)
--- a/test/test_ppo.py
+++ b/test/test_ppo.py
@ -0,0 +1,54 @@
+import pytest
+import torch
+from fancy_rl.ppo import PPO
+from fancy_rl.policy import Policy
+from fancy_rl.loggers import TerminalLogger
+from fancy_rl.utils import make_env
+
+@pytest.fixture
+def policy():
+    return Policy(input_dim=4, output_dim=2, hidden_sizes=[64, 64])
+
+@pytest.fixture
+def loggers():
+    return [TerminalLogger()]
+
+@pytest.fixture
+def env_fn():
+    return make_env("CartPole-v1")
+
+def test_ppo_train(policy, loggers, env_fn):
+    ppo = PPO(policy=policy,
+              env_fn=env_fn,
+              loggers=loggers,
+              learning_rate=3e-4,
+              n_steps=2048,
+              batch_size=64,
+              n_epochs=10,
+              gamma=0.99,
+              gae_lambda=0.95,
+              clip_range=0.2,
+              total_timesteps=10000,
+              eval_interval=2048,
+              eval_deterministic=True,
+              eval_episodes=5,
+              seed=42)
+    ppo.train()
+
+def test_ppo_evaluate(policy, loggers, env_fn):
+    ppo = PPO(policy=policy,
+              env_fn=env_fn,
+              loggers=loggers,
+              learning_rate=3e-4,
+              n_steps=2048,
+              batch_size=64,
+              n_epochs=10,
+              gamma=0.99,
+              gae_lambda=0.95,
+              clip_range=0.2,
+              total_timesteps=10000,
+              eval_interval=2048,
+              eval_deterministic=True,
+              eval_episodes=5,
+              seed=42)
+    ppo.evaluate(epoch=0)