Article (Scientific journals)
Stratégies d'échantillonnage pour l'apprentissage par renforcement batch
Fonteneau, Raphaël; Murphy, Susan A.; Wehenkel, Louis et al.
2013In Revue d'Intelligence Artificielle, 27 (2), p. 171-194
Peer Reviewed verified by ORBi
 

Files


Full Text
Fonteneau2013RIA.pdf
Author preprint (566.15 kB)
Download

All documents in ORBi are protected by a user license.

Send to



Details



Keywords :
Apprentissage par renforcement; apprentissage actif; contrôle optimal; Reinforcement learning; active learning; optimal control
Abstract :
[fr] Cet article présente deux stratégies d’échantillonnage dans le contexte de l’apprentissage par renforcement en mode “batch”. La première stratégie repose sur l’idée que les expériences susceptibles de mener à une modification de la politique de décision courante sont particulièrement informatives. Etant donné a priori un algorithme d’inférence de politiques de décision ainsi qu’un modèle prédictif du système, une expérience est réalisée si, étant donné le modèle prédictif, cette expérience mène à l’apprentissage d’une politique de décision différente. La deuxième stratégie exploite des résultats récemment publiés pour calculer des bornes sur le retour des politiques de décision de manière à sélectionner des expériences améliorant la précision des bornes afin de discriminer les politiques non-optimales. Ces deux stratégies sont illustrées sur des problèmes élémentaires et les résultats obtenus sont prometteurs.
[en] We propose two strategies for experiment selection in the context of batch mode reinforcement learning. The first strategy is based on the idea that the most interesting experiments to carry out at some stage are those that are the most liable to falsify the current hypothesis about the optimal control policy. We cast this idea in a context where a policy learning algorithm and a model identification method are given a priori. The second strategy exploits recently published methods for computing bounds on the return of control policies from a set of trajectories in order to sample the state-action space so as to be able to discriminate between optimal and non-optimal policies. Both strategies are experimentally validated, showing promising results.
Disciplines :
Computer science
Author, co-author :
Fonteneau, Raphaël ;  Université de Liège - ULiège > Dép. d'électric., électron. et informat. (Inst.Montefiore) > Systèmes et modélisation
Murphy, Susan A.
Wehenkel, Louis  ;  Université de Liège - ULiège > Dép. d'électric., électron. et informat. (Inst.Montefiore) > Systèmes et modélisation
Ernst, Damien  ;  Université de Liège - ULiège > Dép. d'électric., électron. et informat. (Inst.Montefiore) > Smart grids
Language :
French
Title :
Stratégies d'échantillonnage pour l'apprentissage par renforcement batch
Publication date :
2013
Journal title :
Revue d'Intelligence Artificielle
ISSN :
0992-499X
Publisher :
Lavoisier, Cachan, France
Volume :
27
Issue :
2
Pages :
171-194
Peer reviewed :
Peer Reviewed verified by ORBi
Available on ORBi :
since 23 May 2013

Statistics


Number of views
110 (14 by ULiège)
Number of downloads
270 (2 by ULiège)

Scopus citations®
 
0
Scopus citations®
without self-citations
0
OpenCitations
 
0

Bibliography


Similar publications



Contact ORBi