Apprentissage par renforcement bayésien versus recherche directe de politique hors-ligne en utilisant une distribution a priori: comparaison empirique

Castronovo, Michaël; Ernst, Damien; Fonteneau, Raphaël

Paper published in a book (Scientific congresses and symposiums)

Castronovo, Michaël; Ernst, Damien; Fonteneau, Raphaël

2014 • In Proceedings des 9èmes Journée Francophones de Planification, Décision et Apprentissage

Peer reviewed

Permalink
https://hdl.handle.net/2268/166188

Files (1)Send to Details Statistics Bibliography Similar publications

Files

Full Text

JFPDA14-v3.pdf

Author postprint (305.11 kB)

Erratum

Download

All documents in ORBi are protected by a user license.

Send to

RIS BibTex APA Chicago Permalink X Linkedin

Details

Keywords :

Apprentissage par renforcement

Abstract :

[fr] Cet article aborde le problème de prise de décision séquentielle dans des processus de déci- sion de Markov (MDPs) finis et inconnus. L’absence de connaissance sur le MDP est modélisée sous la forme d’une distribution de probabilité sur un ensemble de MDPs candidats connue a priori. Le cri- tère de performance utilisé est l’espérance de la somme des récompenses actualisées sur une trajectoire infinie. En parallèle du critère d’optimalité, les contraintes liées au temps de calcul sont formalisées rigoureusement. Tout d’abord, une phase « hors-ligne » précédant l’interaction avec le MDP inconnu offre à l’agent la possibilité d’exploiter la distribution a priori pendant un temps limité. Ensuite, durant la phase d’interaction avec le MDP, à chaque pas de temps, l’agent doit prendre une décision dans un laps de temps contraint déterminé. Dans ce contexte, nous comparons deux stratégies de prise de déci- sion : OPPS, une approche récente exploitant essentiellement la phase hors-ligne pour sélectionner une politique dans un ensemble de politiques candidates et BAMCP, une approche récente de planification en-ligne bayésienne. Nous comparons empiriquement ces approches dans un contexte bayésien, en ce sens que nous évaluons leurs performances sur un large ensemble de problèmes tirés selon une distribution de test. A notre connaissance, il s’agit des premiers tests expérimentaux de ce type en apprentissage par renforcement. Nous étudions plusieurs cas de figure en considérant diverses distributions pouvant être utilisées aussi bien en tant que distribution a priori qu’en tant que distribution de test. Les résultats obtenus suggèrent qu’exploiter une distribution a priori durant une phase d’optimisation hors-ligne est un avantage non- négligeable pour des distributions a priori précises et/ou contraintes à de petits budgets temps en-ligne.

Disciplines :

Computer science

Author, co-author :

Castronovo, Michaël ; Université de Liège - ULiège > Dép. d'électric., électron. et informat. (Inst.Montefiore) > Smart grids

Ernst, Damien ; Université de Liège - ULiège > Dép. d'électric., électron. et informat. (Inst.Montefiore) > Smart grids

Fonteneau, Raphaël ; Université de Liège - ULiège > Dép. d'électric., électron. et informat. (Inst.Montefiore) > Systèmes et modélisation

Language :

French

Title :

Apprentissage par renforcement bayésien versus recherche directe de politique hors-ligne en utilisant une distribution a priori: comparaison empirique

Publication date :

May 2014

Event name :

9èmes Journées Francophones de Planification, Décision et Apprentissage

Event organizer :

ULg - Université de Liège

Event place :

Liège, Belgium

Event date :

du 12 mai 2014 au 13 mai 2014

Audience :

International

Main work title :

Proceedings des 9èmes Journée Francophones de Planification, Décision et Apprentissage

Peer review/Selection committee :

Peer reviewed

Tags :

CÉCI : Consortium des Équipements de Calcul Intensif

Funders :

F.R.S.-FNRS - Fonds de la Recherche Scientifique

Available on ORBi :

since 27 April 2014

Statistics

Number of views

269 (32 by ULiège)

Number of downloads

295 (8 by ULiège)

More statistics