1. Approximations de l'Algorithme Itérations sur les Politiques Modifié
- Author
-
Scherrer, Bruno, Gabillon, Victor, Ghavamzadeh, Mohammad, Geist, Matthieu, Autonomous intelligent machine (MAIA), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Complex Systems, Artificial Intelligence & Robotics (LORIA - AIS), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Sequential Learning (SEQUEL), Laboratoire d'Informatique Fondamentale de Lille (LIFL), Université de Lille, Sciences et Technologies-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lille, Sciences Humaines et Sociales-Centre National de la Recherche Scientifique (CNRS)-Université de Lille, Sciences et Technologies-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lille, Sciences Humaines et Sociales-Centre National de la Recherche Scientifique (CNRS)-Laboratoire d'Automatique, Génie Informatique et Signal (LAGIS), Université de Lille, Sciences et Technologies-Centrale Lille-Centre National de la Recherche Scientifique (CNRS)-Centrale Lille-Centre National de la Recherche Scientifique (CNRS)-Inria Lille - Nord Europe, Institut National de Recherche en Informatique et en Automatique (Inria), IMS : Information, Multimodalité & Signal, SUPELEC-Campus Metz, Ecole Supérieure d'Electricité - SUPELEC (FRANCE)-Ecole Supérieure d'Electricité - SUPELEC (FRANCE), Olivier Buffet, Université de Lille, Sciences et Technologies-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lille, Sciences Humaines et Sociales-Centre National de la Recherche Scientifique (CNRS)-Université de Lille, Sciences et Technologies-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lille, Sciences Humaines et Sociales-Centre National de la Recherche Scientifique (CNRS)-Inria Lille - Nord Europe, Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire d'Automatique, Génie Informatique et Signal (LAGIS), Université de Lille, Sciences et Technologies-Centrale Lille-Centre National de la Recherche Scientifique (CNRS)-Centrale Lille-Centre National de la Recherche Scientifique (CNRS), and Buffet, Olivier
- Subjects
[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,ACM: I.: Computing Methodologies/I.2: ARTIFICIAL INTELLIGENCE ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
Le corps de cet article est paru, en langue anglaise, dans ICML'2012 (Proceedings of the International Conference on Machine Learning); National audience; Itérations sur les politiques modifié (MPI) est un algorithme de programmation dynamique qui généralise les deux algorithmes célèbres Itérations sur les valeurs (VI) et sur les politiques (PI). Malgré sa généralité, cet algorithme - et particulièremet sa mise en œuvre approchée qui est utilisée lorsque les espaces d'états/actions sont très grands - n'a pas encore été l'objet d'une analyse approfondie. Nous proposons ici trois implémentations approchées de MPI (AMPI) qui sont des extensions d'algorithmes de la littérature (Fitted Value Iteration, Fitted Q-Iteration et Classification Based Policy Iteration). Nous développons une analyse de la propagation d'erreur qui unifie celles développées indépendemment pour VI et PI dans la littérature. Nous fournissons enfin une analyse en échantillons finis pour le dernier algorithme basé sur un classifieur de politiques, qui est en quelque sorte le plus général. Une observation intéressante est que la paramètre principal de MPI permet de contrôler, dans la borne de performance, l'équilibre entre les erreurs dans le calcul des valeurs et celles dans l'estimation de la politique gourmande.
- Published
- 2012