Doctoral thesis (Dissertations and theses)
Etude du classement par forêts aléatoires d'échantillons perturbés à forte structure d'interaction
Brostaux, Yves
2005
 

Files


Full Text
PhD_YBT_05.pdf
Author postprint (1.22 MB)
Download

All documents in ORBi are protected by a user license.

Send to



Details



Keywords :
random forest; CART; binary data
Abstract :
[fr] Parmi les méthodes de classement, les forêts d'arbres de décision (Random Forests, BREIMAN, 2001) offrent une souplesse indéniable tant en ce qui concerne la nature des variables descriptives et de la cible du classement que sur la forme du concept à modéliser. Leur diffusion en agronomie se heurte à un manque de connaissance concernant leur aptitude à apprendre des modèles fortement marqués par les interactions, en utilisant des échantillons de taille modeste et caractérisés par un bruit de fond aléatoire et des attributs diversement pertinents. La présente recherche a pour but de combler ce vide au moyen d'une exploration systématique de l'effet de ces différents facteurs ainsi que des paramètres des forêts, réalisée par simulation, en prenant comme base de comparaison des arbres de décision issus de la méthode CART (BREIMAN et al., 1984). Les résultats montrent que les forêts aléatoires les plus efficaces sont basées sur une sélection des attributs partiellement déterministe et une taille de forêt égale à au moins 100 voire 500 arbres. Ces forêts présentent globalement un avantage significatif en terme d'erreur de prédiction et ce dès les effectifs d'apprentissage faibles (50 individus). Cet avantage se réduit avec le niveau de perturbation général de l'échantillon (bruit et variables parasites) mais augmente avec la taille de celui-ci, les forêts aléatoires n'étant pas affectées par la limitation asymptotique de l'apprentissage affichée par la méthode CART.
[en] Amongst classification methods, forests of decision trees (Random Forests, BREIMAN, 2001) are highly versatile concerning descriptive attributes' or target variable's nature and shape of the concept to estimate. Their diffusion in agronomical sciences is slowed by a lack of information about their ability to learn models with high interaction structures using learning samples with few examples and affected by random noise and irrelevant attributes. This research aim to fill this gap by a systematic exploration of those factors' effects and of the parameters of the Random Forests method, which is done by computer simulations, taking as a reference the classification trees generated by Breiman's CART method (1984). Results show that generating random forests with a partially deterministic attributes selection and a forest size of at least 100 or 500 trees give the best prediction accuracy. Those random forests show a significant increase in prediction accuracy on CART trees, even for low learning sample size (50 examples). This advantage reduce with the global perturbation level (noise and irrelevant attributes) but increase with the learning sample size, as random forests aren't affected by the asymptotic limitation of the learning curve showed by CART method.
Disciplines :
Mathematics
Agriculture & agronomy
Computer science
Author, co-author :
Brostaux, Yves  ;  Université de Liège - ULiège > Gembloux Agro-Bio Tech > Gembloux Agro-Bio Tech
Language :
French
Title :
Etude du classement par forêts aléatoires d'échantillons perturbés à forte structure d'interaction
Defense date :
04 July 2005
Number of pages :
168
Institution :
ULiège. GxABT - Liège Université. Gembloux Agro-Bio Tech
Degree :
Doctorat en sciences agronomiques
Promotor :
Claustriaux, Jean-Jacques ;  Université de Liège - ULiège > Département GxABT > Modélisation et développement
Available on ORBi :
since 24 September 2009

Statistics


Number of views
496 (18 by ULiège)
Number of downloads
4342 (41 by ULiège)

Bibliography


Similar publications



Contact ORBi