Binary logistic regression; Proportion of individuals; Number of samples; Quality of validation; Qualité de validation; Régression logistique binaire; Proportion d'individus; Nombre d'échantillons
Abstract :
[en] In this paper, we summarize a study of the quality of validation given by binary logistic regression models. We have studied the effect of the proportion of events (ie proportion of individuals having the code 1) and the way of using data for selecting variables and fitting a model. In particular, we show the interest of leading those two steps separately or not. Artificial data were used to carry out this study.
We show that proportion of events influences the quality of the models. Especially, this effect is great when the proportion is very low (5% in our study). We also meet problems like non-convergence of the algorithm when trying to fit a model. However, quality is much better when a proportion equal to 25% or 50% is used. For the latter one, precision of the estimations is even a little bit better and the others studied factors have no effect.
The simulations also show that separating selection and fitting is not an interesting strategy because we never obtain a good quality. Difference of quality is however close to 10 per cent. [fr] Dans cet article, on étudie la qualité de validation des modèles de régression logistique binaire. En particulier, on s’intéresse à l’effet de la proportion d’individus ayant le caractère étudié (c’est-à-dire le code 1) sur cette qualité. De même, on évalue l’intérêt qu’il peut y avoir à séparer ou non les étapes de sélection et d’ajustement sur deux échantillons indépendants. L’ensemble de l’étude est basée sur des données simulées.
La proportion d’individus codés 1 a une influence sur la qualité des modèles. Cet effet est d’autant plus important que la proportion est très faible. Des situations de non-convergence ont d’ailleurs été rencontrées. Par contre, la qualité des modèles est assez constante pour les proportions 25% et 50%. Pour cette seconde modalité, la précision des estimations est un peu meilleure et surtout l’effet des autres facteurs étudiés s’estompe.
Par ailleurs, les simulations ont montré que la séparation des étapes de sélection et d’ajustement ne conduisent jamais à une meilleure qualité de validation des modèles. Au contraire, cette qualité est généralement moins bonne mais l’écart n’est que de l’ordre de 10%.
Disciplines :
Life sciences: Multidisciplinary, general & others
Author, co-author :
Duyme, F.
Claustriaux, Jean-Jacques ; Faculté Universitaire des Sciences Agronomiques de Gembloux - FUSAGx > Sciences agronomiques > Statistique, Informatique et Mathématique appliquées
Daudin, J.-J.
Language :
French
Title :
Qualité de validation des modèles de régression logisitique binaire