Article (Scientific journals)
Qualité de validation des modèles de régression logisitique binaire
Duyme, F.; Claustriaux, Jean-Jacques; Daudin, J.-J.
2005In Revue de Statistique Appliquée, LIII (3), p. 91-102
Peer reviewed
 

Files


Full Text
RSA_2005__53_3_91_0.pdf
Publisher postprint (341.27 kB)
Download

All documents in ORBi are protected by a user license.

Send to



Details



Keywords :
Binary logistic regression; Proportion of individuals; Number of samples; Quality of validation; Qualité de validation; Régression logistique binaire; Proportion d'individus; Nombre d'échantillons
Abstract :
[en] In this paper, we summarize a study of the quality of validation given by binary logistic regression models. We have studied the effect of the proportion of events (ie proportion of individuals having the code 1) and the way of using data for selecting variables and fitting a model. In particular, we show the interest of leading those two steps separately or not. Artificial data were used to carry out this study. We show that proportion of events influences the quality of the models. Especially, this effect is great when the proportion is very low (5% in our study). We also meet problems like non-convergence of the algorithm when trying to fit a model. However, quality is much better when a proportion equal to 25% or 50% is used. For the latter one, precision of the estimations is even a little bit better and the others studied factors have no effect. The simulations also show that separating selection and fitting is not an interesting strategy because we never obtain a good quality. Difference of quality is however close to 10 per cent.
[fr] Dans cet article, on étudie la qualité de validation des modèles de régression logistique binaire. En particulier, on s’intéresse à l’effet de la proportion d’individus ayant le caractère étudié (c’est-à-dire le code 1) sur cette qualité. De même, on évalue l’intérêt qu’il peut y avoir à séparer ou non les étapes de sélection et d’ajustement sur deux échantillons indépendants. L’ensemble de l’étude est basée sur des données simulées. La proportion d’individus codés 1 a une influence sur la qualité des modèles. Cet effet est d’autant plus important que la proportion est très faible. Des situations de non-convergence ont d’ailleurs été rencontrées. Par contre, la qualité des modèles est assez constante pour les proportions 25% et 50%. Pour cette seconde modalité, la précision des estimations est un peu meilleure et surtout l’effet des autres facteurs étudiés s’estompe. Par ailleurs, les simulations ont montré que la séparation des étapes de sélection et d’ajustement ne conduisent jamais à une meilleure qualité de validation des modèles. Au contraire, cette qualité est généralement moins bonne mais l’écart n’est que de l’ordre de 10%.
Disciplines :
Life sciences: Multidisciplinary, general & others
Author, co-author :
Duyme, F.
Claustriaux, Jean-Jacques ;  Faculté Universitaire des Sciences Agronomiques de Gembloux - FUSAGx > Sciences agronomiques > Statistique, Informatique et Mathématique appliquées
Daudin, J.-J.
Language :
French
Title :
Qualité de validation des modèles de régression logisitique binaire
Publication date :
2005
Journal title :
Revue de Statistique Appliquée
ISSN :
0035-175X
Volume :
LIII
Issue :
3
Pages :
91-102
Peer reviewed :
Peer reviewed
Available on ORBi :
since 12 January 2011

Statistics


Number of views
52 (0 by ULiège)
Number of downloads
233 (1 by ULiège)

Bibliography


Similar publications



Contact ORBi