Abstract :
[fr] La statistique multivariée recouvre l’ensemble des méthodes d’analyse des données résultant de l’observation simultanée de plusieurs variables. Elle fait dès lors appel au calcul vectoriel et plus généralement au calcul matriciel. Il faut bien reconnaître que la plupart des problèmes rencontrés en pratique impliquent au moins deux variables et relèvent de ce fait du domaine multidimensionnel. L’exemple le plus célèbre est celui des iris de Fisher qui reprend les mesures de quatre variables, à savoir longueur et largeur des sépales, longueur et largeur des pétales, chez 50 iris setosa, 50 iris versicolor et 50 iris virginica. Ces données sont reprises en annexe. Elles permettent d’illustrer la plupart des méthodes statistiques multivariées décrites dans cet ouvrage.
Il n’est guère possible d’aborder la statistique multivariée sans avoir une connaissance approfondie des méthodes de l’analyse statistique univariée. Celles-ci sont décrites dans mon livre “Biostatistique”. Les méthodes de l’analyse statistique multivariée ont été développées dans le courant du 20e siècle mais n’ont pu être réellement exploitées qu’avec l’avènement de l’informatique. En fait, plus le nombre de variables étudiées simultanément est élevé, plus les calculs sont longs voire impossibles manuellement. Les ordinateurs actuels permettent de résoudre des problèmes multivariés complexes en quelques secondes. Par ailleurs, de nombreux logiciels ont été développés, rendant ainsi accessibles à une large communauté d’utilisateurs les techniques de l’analyse statistique multivariée. S’il s’agit là d’un progrès considérable, il est néanmoins impératif que l’utilisateur possède un minimum de connaissances en statistique multivariée. C’est l’objectif principal de cet ouvrage destiné aux étudiants et aux chercheurs.
Cet ouvrage est structuré en 8 chapitres. Le Chapitre 1 reprend les notions de base du calcul matriciel, outil indispensable à la présentation, à la caractérisation et à la résolution des problèmes statistiques multivariés. Au Chapitre 2, on rappelle brièvement les notions de population, d’échantillon ainsi que les différents types de variables (quantitatives, qualitatives et binaires). On montre ensuite comment se construit une matrice d’observations n × p, tableau résultant de l’observation chez n sujets ou objets (lignes) de p variables (colonnes). La représentation d’observations multivariées par différentes techniques est aussi abordée. Le Chapitre 3 étend au niveau multivarié les concepts classiques de moyenne et de variance. En particulier, on y introduit les notions de matrice de variances-covariances et de matrice de corrélations. La distance de Mahalanobis entre deux points de l’espace à p dimensions y est définie. Elle va au-delà de la distance euclidienne classique, de manière à tenir compte des associations entre les variables.
La première grande méthode de statistique multivariée est développée au Chapitre 4. Il s’agit de l’analyse en composantes principales qui permet de représenter dans un plan (espace à deux dimensions) la distribution d’un ensemble de points de l’espace multidimensionnel. On obtient ainsi une photographie de la matrice d’observations. On présente aussi brièvement dans ce chapitre la méthode plus récente dite du biplot.
Le Chapitre 5 s’intéresse à la relation et à la corrélation entre une variable dite “dépendante” et plusieurs autres variables dites “indépendantes”. Il s’agit de la méthode de régression et de corrélation multiple. Dans la plupart des livres de statistique, cette méthode relève de la statistique univariée car les variables indépendantes sont considérées comme des facteurs fixés par l’utilisateur dans un plan d’expérience (plans factoriels) et seule la variable dépendante est observée. Nous l’avons reprise comme méthode statistique multivariée parce qu’elle fait appel au calcul matriciel mais aussi en raison du fait que, si les variables sont observées simultanément, il s’agit bien d’un problème multivarié.
Le Chapitre 6 fait référence à l’une des méthodes les plus utilisées actuellement en statistique multivariée. Il s’agit de la régression logistique qui permet d’étudier l’association entre une variable dépendante binaire et un vecteur de variables. On aborde également la méthode de régression logistique ordinale où, en lieu et place d’une variable binaire, on étudie une variable ordinale dont les catégories sont ordonnées.
Le Chapitre 7 est consacré aux durées de vie, sujet déjà abordé dans le Chapitre 5 du livre de Biostatistique. Plus spécifiquement, on s’intéresse ici à la relation entre une durée de vie et un ensemble de covariables par le biais de la méthode de régression de Cox, appelée aussi modèle des “risques proportionnels” de Cox. Il s’agit d’une méthode complexe mais de la plus haute actualité. Son utilisation dans la littérature internationale est abondante.
Enfin, le Chapitre 8 reprend un vieux problème de la statistique multivariée, celui de l’analyse discriminante. On se propose de séparer deux ou plusieurs populations sur base d’un vecteur de variables, grâce à la fonction linéaire discriminante de Fisher ou à son extension multiple. L’analyse discriminante canonique permet de représenter les populations sur un plan, à la manière de l’analyse en composantes principales. L’analyse discriminante peut aussi être vue comme le problème de classement d’un sujet ou d’un objet dans deux ou plusieurs populations avec un risque minimum de se tromper. Cette approche est également abordée.
Les annexes reprennent trois fichiers de données servant à illustrer les méthodes décrites dans le livre : (1) les iris de Fisher, (2) les données des traumatisés craˆniens, et (3) les données de patients atteints d’un cancer rectal. Les annexes contiennent aussi 4 des 7 tables figurant dans le livre de Biostatistique, à savoir les lois Normale, Chi-carré, t de Student et F de Snedecor.