Abstract :
[fr] La plupart des caractères ayant un intérêt médical ou agronomique sont dits complexes. Ce qui signifie qu'ilssont influencés par plusieurs gènes, des facteurs environnementaux et des interactions gènes-environnement.L'identification de gènes affectant de tels caractères est un des sujets les plus importants de la génétique moderne: d'un point vu médical, cela offrirait de nouvelles perspectives, tant d'ordre diagnostic quethérapeutique, tandis que sur un plan agronomique, cela ouvrirait de nouvelles voies dans la sélection et la manipulation des animaux domestiques.L'approche la plus efficace pour identifier des gènes impliqués dans des caractères complexes est le clonagepositionnel. Cette approche comporte trois étapes: (i) identifier les régions génomiques contenant les facteursgénétiques impliqués dans les caractères étudiés, (ii) identifier les mutations causales (iii) et enfin étudier lefonctionnement cellulaire et moléculaire des gènes responsables.La première étape du clonage positionnel, appelé cartographie génétique consiste à regarder au sein d'un groupe d'individus, s’il existe une corrélation entre l'histoire des différents chromosomes et celle du caractère étudié. Les outils génétiques permettant de suivre l'état d'un chromosome chez un individu, ont connu ces dernières années des progrès remarquables, notamment grâce à l'apparition des plates-formes de génotypage à haut débit et audéveloppement de nouveaux marqueurs génétiques. Actuellement, la principale difficulté en cartographie génétique réside dans le choix de la meilleure stratégie pour détecter des variations génétiques affectant des caractères complexes, qui le plus souvent sont associés à des effets relativement modestes. Le choix d'une approche dépendra: (i) du caractère étudié – caractère discret ou continu (ii) du dataset – les individus sontapparentés ou non et (iii) des outils génétiques disponibles.Les travaux réalisés au cours de cette thèse s'inscrivent précisément dans cette problématique, c'est à diredévelopper des approches statistiques afin d'identifier des gènes affectant des caractères complexes ayant unintérêt médical ou agronomique.La plupart des études de cartographie QTL (Quantitative Trait Loci, loci influençant un caractère continu), dansdes populations de bovins laitiers, exploitent la structure en GDD (Grand Daughter Design) des pedigrees etprocèdent en regardant au sein de familles de demi-frères paternelles, s’il existe des différences phénotypiquesentre les taureaux en fonction de l'homologue reçu. Étant donné que ce type d'approche exploite la transmissionde chromosome de taureau à taureau et que le chromosome X est d'origine maternelle chez les mâles, lacartographie de QTL sur le chromosome X dans ce type d'espèce a longtemps été exclue. Pour cartographier desQTL sur le X, nous avons proposé une approche retraçant l'histoire des différents segments chromosomiquesdans notre échantillon, sur base de son mode de transmission et de la structure de la population. Cette approchesuppose que s’il existe un QTL au niveau d'une région donnée, deux individus ayant reçu le même segmentchromosomique se ressembleront davantage que deux individus ayant reçu deux segments chromosomiquesdifférents. Cette approche suppose également qu'il existe une corrélation, appelée déséquilibre de liaison (DL)entre les allèles QTL et allèles marqueurs. Afin d'évaluer l'intérêt d'une telle approche, nous avons caractérisé les niveaux de DL sur le X. Nous avons montré que le X exhibait dans ce type de population des niveaux de DLparticulièrement élevé et inattendu. Parmi les 48 caractères laitiers étudiés, nous avons trouvé en utilisant une méthode de type maximum de vraisemblance restreint (REML, Residual maximum likelihood estimation) 5 QTLsignificatifs sur le X.Au cours de ces dernières années, le nombre de publications chez les espèces de productions mettant en évidencede l'empreinte parentale (y compris chez les oiseaux) comme étant associé aux QTL découverts (imprinted QTL,l'effet d'un allèle QTL dépendra de son origine parentale) n'a cessé de croitre. Ces résultats contredisent ceux de la biologie moléculaire, qui montrent que l'empreinte parentale est un phénomène rare et uniquement observéchez les mammifères placentaires. Une précédente étude, pointe le problème d'ordre statistique soulevé partoutes ces études détectant de l'empreinte parentale de façon quasi systématique. Ces études emploient un design de type line-cross qui suppose, pour cartographier des QTL et tester une hypothèse d'empreinte parentale, d'uncoté que les lignées parentales sont fixées pour les allèles QTL et de l'autre qu'elles peuvent ségréger pourdifférents allèles marqueurs. Si cette hypothèse est fausse et que les lignées parentales ne sont pas fixées pour lesallèles QTL, tous les individus en F1 ne sont pas hétérozygotes ou pas hétérozygotes pour les mêmes allèlesQTL. Si le nombre de parents en F1 est restreint (cas typique du coté paternel), il sera possible d'avoir un effet de substitution allélique qui dépendra de l'origine parentale en F2 et de conclure erronément à de l'empreinteparentale. Dans notre étude, nous avons montré que ce problème pouvait être exacerbé de 40 à 80% en cas deDL. Pour tester une hypothèse d'empreinte parentale, il faut que les parents en F1 soient hétérozygotes pour des allèles marqueurs différents. En cas de DL la probabilité que des allèles marqueurs différents soient associés àdes allèles QTL augmente et la détection de fausse empreinte parentale également.Depuis 2007, le nombre de loci à risque associés à des maladies complexes humaines et découverts dans desétudes d'association génome-entier (GWAS = Genome Wide Association Study n'a cessé de croire. Beaucoup de ces loci tombent dans des régions non-codantes et une hypothèse avancée pour expliquer leur rôle biologique est qu'ils moduleraient le niveau d'expression de certains gènes à travers des éléments cis. Des investigations combinant des études d'expression sur un grand nombre de gènes avec des études GWA ont été mises en œuvreafin de répertorier dans des bases de données les effets trans et cis de polymorphismes (appelés eQTL pourExpression Quantitative Trait Locus) sur le niveau d'expression de ces gènes. En utilisant ces bases de donnéesd'eQTL, nous avons pu découvrir: (i) des SNP à risque pour la maladie de Crohn et présent dans une régiondépourvue de gène, régulaient probablement le niveau d'expression du gène PTGER4 (protaglandin E receptor4), codant pour un récepteur à une prostaglandine et candidat sérieux à ce type désordre. (ii) Parmi les 39 SNPs àrisque dans la maladie, on observe 5 effets de type cis eQTL, non dus au hasard. Ces effets eQTL ouvrent denouvelles perspectives dans l'architecture génétique d'une maladie complexe: la maladie de Crohn.L'intensité des recombinaisons ainsi que leur position dans le génome sont dictées par le rôle fondamental quejoue la recombinaison dans la ségrégation correcte des chromosomes lors de la première division méiotique.Néanmoins, on observe, des différences entre individus de même sexe et de même âge aussi bien dans l'intensitéque dans la position des recombinaisons. Une idée pour explorer les causes génétiques sous-tendant cesvariations est d'appliquer des méthodes de cartographie QTL classique à la recombinaison elle-même, qui seratraitée comme un phénotype quantitatif. Nous avons réalisé ce type d'étude à différente échelle, sur unepopulation de taureaux laitiers génotypés pour des milliers de marqueurs de type SNP, en exploitant le fait: (i)qu'un grand nombre d'entre eux disposent d'un nombre suffisant de descendants pour estimer précisément leurtaux de recombinaison, (ii) qu'ils appartiennent à des familles de demi-frères paternelles, pour employer desméthodes de cartographie QTL exploitant le DL et la liaison génétique. Dans cette étude, nous caractérisonspréalablement les niveaux de recombinaison sur différentes échelles: (i) distribution du phénotype, (ii)répétabilité du caractère (iii) suivi d'une étude d'héritabilité. Nous montrons que plusieurs QTL affectent demanière significative les taux de recombinaisons et cela à différentes échelles.Plusieurs conclusions peuvent être tirées de ces études de cartographie génétiques tentant d'identifier des gènes influençant des caractères complexes d'intérêt agronomique ou médical.D'un point vu statistique, on montre que dans la plupart des cas les loci identifiés représentent une faible part de la variation génétique totale (10-15%). Plusieurs hypothèses sont avancées pour expliquer la variation génétiquerestante. (i) La première est que les études actuelles ne sont pas suffisamment puissantes pour détecter des loci même associés à des effets moyens. Cette faiblesse est illustrée par le fait qu'en réalisant une GWAS, dans laquelle on regroupe les données de GWAS individuelles, on augmente considérablement la puissance dedétection de loci associés au caractère étudié. (ii) Une autre hypothèse est que les études de cartographieactuelles utilisent des outils génétiques qui ciblent un seul type de polymorphismes: des variations génétiques fréquentes dans la population. Or un caractère complexe peut très bien être influencé par des variations génétiques peu fréquentes dans la population, voire des mutations rares ou encore des polymorphismesstructuraux (p.e: CNV: Copy Number Variant). (iii) La plupart des études actuelles ne recherchent que des effetsde type additif. Il est fort probable qu'il existe des effets de type gène-gène, appelés épistasie, qui affectent des caractères complexes. Cependant, détecter de tels effets nécessite de mettre en œuvre des études beaucoup pluspuissantes que celles existantes actuellement.D'un point vu biologique, si certains loci détectés se trouvent dans des gènes dont on connait le rôle dans lecaractère étudié, beaucoup d'entre eux se trouvent dans des régions non-codantes. Ce résultat n'a rien desurprenant quand on sait que seulement 5 % du génome est conservé et donc fonctionnel et que parmi ces 5%, untiers correspond à des gènes. Toutefois, comprendre le rôle biologique de ces loci dans des caractères complexesest un challenge. Une hypothèse avancée est que le niveau d'expression de certains gènes est peut-être régulé parces polymorphismes influençant des caractères complexes.Pour améliorer nos connaissances sur les caractères complexes, il sera nécessaire, au cours des prochainesannées:(i) d'étendre le design des études génétiques afin d'en augmenter leur puissance de détection. Cecipassera notamment par: (1) une augmentation de la taille des échantillons, (2) étudier le même phénotype dans des populations ayant une origine différente (un polymorphisme, ayant le même effet dans deux populations différentes peut être plus facilement détecté dans la population où il est le plus fréquent), (3) améliorer la précision de l'estimation des phénotypes (4) étudier des phénotypes apparentés ou des sous-phénotypes (p.e.Crohn et les colites ulcéro-hémorragiques) (5) s'intéresser davantage aux facteurs environnementaux.(ii) Il faudra également étendre la palette des outils génétiques disponibles, pour rechercher despolymorphismes peu fréquents ou des polymorphismes structuraux pouvant affecter des caractères complexes.Ceci devrait être prochainement réalisable grâce à l'essor des technologies de séquençage à haut débit qui devrait permettre de cataloguer des polymorphismes avec une fréquence > 1% dans une population (1000 GenomeProject).On peut penser également qu'il sera possible dans quelques années de séquencer complètement tous les individus d'une étude de cartographie et d'identifier ainsi des mutations génétiques rares. Néanmoins, ces nouveaux outils génétiques bouleverseront les méthodes de cartographie génétique actuelles. Les approches futures devrontexploiter toute l'information disponible simultanément, c'est-à-dire combiner l'information concernant toutes lesvariations génétiques possibles ainsi que les phénotypes et d'éventuels effets environnementaux.En génétique animale, le problème des loci influençant un caractère complexe et écartés par manque de puissance statistique a été contourné par une approche dite de sélection génomique. Celle-ci a pour but de prendre en compte les signaux d’association sur l’entièreté du génome, indépendamment des seuils de signification associés, et de les intégrer en une prédiction la plus précise possible de la valeur d’élevage d’un individu. L’objectif passe donc de l’identification la plus précise possible de loci individuels à la prédiction la plus précise possible d’une valeur d’élevage individuelle globale, sans nécessairement savoir exactement quels sont les loci qui y contribuent, mais en intégrant plutôt de façon pondérée sur l’ensemble des possibilités.Or il serait tout à fait imaginable d'adapter ce type d'approche à des maladies complexes humaines et dedéterminer à partir d'une GWAS un « risque relatif génome entier » (GWRR) pour chaque individu.