Paper published in a book (Scientific congresses and symposiums)
Planification Optimiste dans les Processus Décisionnels de Markov avec Croyance
Fonteneau, Raphaël; Busoniu, Lucian; Munos, Rémi
2013In 8èmes Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes (JFPDA'13)
Peer reviewed
 

Files


Full Text
JFPDA2013BAMDP.pdf
Author postprint (657.24 kB)
Download

All documents in ORBi are protected by a user license.

Send to



Details



Keywords :
Apprentissage par renforcement
Abstract :
[fr] Cet article décrit l'algorithme BOP (de l'anglais ``Bayesian Optimistic Planning''), un nouvel algorithme d'apprentissage par renforcement Bayésien indirect (c'est à dire fondé sur un modèle). BOP étend l'approche de l'algorithme OP-MDP (de l'anglais ``Optimistic Planning for Markov Decision Processes'', voir [Busoniu2011,Busoniu2012]) au cas où les probabilités de transitions du MDP sous-jacent sont initialement inconnues, et doivent être apprises au travers d'interactions avec l'environnement. Les connaissances sur le MDP sous-jacent sont représentées par une distribution de probabilités sur l'ensemble de tous les modèles de transitions à l'aide de distributions de Dirichlet. L'algorithme BOP planifie dans l'espace augmenté état-croyance obtenu par concaténation du vecteur d'état avec la distribution postérieure sur les modèles de transitions. On montre que BOP atteint l'optimalité Bayésienne lorsque le paramètre de budget tend vers l'infini. Quelques expériences préliminaires montrent des résultats encourageants.
Disciplines :
Computer science
Author, co-author :
Fonteneau, Raphaël ;  Université de Liège - ULiège > Dép. d'électric., électron. et informat. (Inst.Montefiore) > Systèmes et modélisation
Busoniu, Lucian
Munos, Rémi
Language :
French
Title :
Planification Optimiste dans les Processus Décisionnels de Markov avec Croyance
Publication date :
2013
Event name :
8èmes Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes (JFPDA'13)
Event place :
Lille, France
Event date :
from 01-07-2013 to 02-07-2013
Main work title :
8èmes Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes (JFPDA'13)
Peer reviewed :
Peer reviewed
Available on ORBi :
since 03 July 2013

Statistics


Number of views
79 (8 by ULiège)
Number of downloads
217 (3 by ULiège)

Bibliography


Similar publications



Contact ORBi