Planification Optimiste dans les Processus Décisionnels de Markov avec Croyance

Fonteneau, Raphaël; Busoniu, Lucian; Munos, Rémi

Paper published in a book (Scientific congresses and symposiums)

Fonteneau, Raphaël; Busoniu, Lucian; Munos, Rémi

2013 • In 8èmes Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes (JFPDA'13)

Peer reviewed

Permalink
https://hdl.handle.net/2268/152345

Files (1)Send to Details Statistics Bibliography Similar publications

Files

Full Text

JFPDA2013BAMDP.pdf

Author postprint (657.24 kB)

Download

All documents in ORBi are protected by a user license.

Send to

RIS BibTex APA Chicago Permalink X Linkedin

Details

Keywords :

Apprentissage par renforcement

Abstract :

[fr] Cet article décrit l'algorithme BOP (de l'anglais ``Bayesian Optimistic Planning''), un nouvel algorithme d'apprentissage par renforcement Bayésien indirect (c'est à dire fondé sur un modèle). BOP étend l'approche de l'algorithme OP-MDP (de l'anglais ``Optimistic Planning for Markov Decision Processes'', voir [Busoniu2011,Busoniu2012]) au cas où les probabilités de transitions du MDP sous-jacent sont initialement inconnues, et doivent être apprises au travers d'interactions avec l'environnement. Les connaissances sur le MDP sous-jacent sont représentées par une distribution de probabilités sur l'ensemble de tous les modèles de transitions à l'aide de distributions de Dirichlet. L'algorithme BOP planifie dans l'espace augmenté état-croyance obtenu par concaténation du vecteur d'état avec la distribution postérieure sur les modèles de transitions. On montre que BOP atteint l'optimalité Bayésienne lorsque le paramètre de budget tend vers l'infini. Quelques expériences préliminaires montrent des résultats encourageants.

Disciplines :

Computer science

Author, co-author :

Fonteneau, Raphaël ; Université de Liège - ULiège > Dép. d'électric., électron. et informat. (Inst.Montefiore) > Systèmes et modélisation

Busoniu, Lucian

Munos, Rémi

Language :

French

Title :

Planification Optimiste dans les Processus Décisionnels de Markov avec Croyance

Publication date :

2013

Event name :

8èmes Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes (JFPDA'13)

Event place :

Lille, France

Event date :

from 01-07-2013 to 02-07-2013

Main work title :

8èmes Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes (JFPDA'13)

Peer review/Selection committee :

Peer reviewed

Available on ORBi :

since 03 July 2013

Statistics

Number of views

175 (8 by ULiège)

Number of downloads

307 (3 by ULiège)

More statistics