1. Planification Monte Carlo orientée information
- Author
-
Thomas, Vincent, Hutin, Gérémy, Buffet, Olivier, Lifelong Autonomy and interaction skills for Robots in a Sensing ENvironment (LARSEN), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Complex Systems, Artificial Intelligence & Robotics (LORIA - AIS), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), École normale supérieure - Lyon (ENS Lyon), Experiments presented in this paper were carried out using the Grid’5000 testbed, supported by a scientific interest group hostedby Inria and including CNRS, RENATER and several Universities as well as other organizations (see https://www.grid5000.fr)., École normale supérieure de Lyon (ENS de Lyon), and Thomas, Vincent
- Subjects
[INFO.INFO-SY] Computer Science [cs]/Systems and Control [cs.SY] ,[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,Planification dans l'incertain ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,recherche active d'information ,[INFO.INFO-SY]Computer Science [cs]/Systems and Control [cs.SY] ,MCTS ,POMDP ,rho-POMDP ,ComputingMethodologies_ARTIFICIALINTELLIGENCE ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
International audience; Dans cet article, nous nous intéressons à la résolution de problèmes de collecte active d'information exprimés sous la forme de rho-POMDP, une extension des Processus Décisionnels de Markov Partiellement Observables (POMDP) dont la récompense rho dépend de l'état de croyance. Des approches utilisées pour résoudre les POMDP ont déjà été étendues au cadre rho-POMDP lorsque la récompense rho est convexe ou lipschtizienne, mais ces approches ne permettent pas de résoudre toutes les instances de rho-POMDP. Afin de proposer un algorithme en-ligne efficace qui s'affranchit des contraintes sur rho, cet article se concentre sur les méthodes à base de recherche arborescente Monte Carlo et cherche à adapter POMCP à la résolution de rho-POMDP. Comme les récompenses dépendent de l'état de croyance, il est nécessaire de modifier POMCP (i) pour échantillonner plusieurs états lors des trajectoires suivies et (ii) pour éviter les biais dans l'estimation des valeurs. Des expériences ont été conduites pour étudier les propriétés de l'approche proposée.
- Published
- 2020