Optimistic Multi-Agent Policy Gradient

This is the code for optimappo (paper, website) which enables otpimism in multi-agent policy gradient methods by shaping the advantage estimation. This is a simple, but effective way to improve MAPPO on deterministic tasks by overcoming the relative overgeneralization problem.

Installation

Please refer to MAPPO to install the python virtural environment.
We also need to install Multi-Agent MuJoCo.

Train your optimistic MAPPO (optimappo)

cd scripts
./train_mujoco_local.sh

Expected results

Citation

If you found this code is useful for your work, please cite our paper:

@inproceedings{zhao2024optimistic,
        title={Optimistic Multi-Agent Policy Gradient},
        author={Zhao, Wenshuai and Zhao, Yi and Li, Zhiyuan and Kannala, Juho and Pajarinen, Joni},
        booktitle={Proceedings of the International Conference on Machine Learning},
        year={2024}
      }

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
algorithms		algorithms
configs		configs
docs		docs
envs		envs
runner		runner
scripts		scripts
utils		utils
.gitignore		.gitignore
README.md		README.md
__init__.py		__init__.py
config.py		config.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Optimistic Multi-Agent Policy Gradient

Installation

Train your optimistic MAPPO (optimappo)

Expected results

Citation

About

Releases

Packages

Languages

wenshuaizhao/optimappo

Folders and files

Latest commit

History

Repository files navigation

Optimistic Multi-Agent Policy Gradient

Installation

Train your optimistic MAPPO (optimappo)

Expected results

Citation

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages