Abstract :
[en] The Molecular Team of the Animal Genomics Unit has consistently focused on dissecting the molecular mechanisms underlying agronomically important phenotypes, such as production traits or mono- or oligo-genic diseases, as well as traits of more basic interest, such as meiotic recombination, gene conversion, and de novo germline mutations of all types. The present study aimed to characterize biological processes capable of influencing the creation of a particular type of de novo mutation, specifically, new insertions created by the mobilization of transposable elements (TEs) in the germline of cattle.
The starting point of our work involved the molecular dissection of a recently identified lethal recessive disease in the Holstein Friesian (HF) cattle breed, known as 'cholesterol deficiency.' Through positional cloning, the gene and causal mutation were identified and characterized: an insertion of a TE, specifically an endogenous retrovirus (ERV), in exon 5 of a gene encoding a protein essential for cholesterol transport, the APOB gene (Apolipoprotein B). This insertion, which results in a full loss of function, is recent and specific to the HF breed, suggesting that this ERV family (ERV2-1-LTR-BT) might still be capable of mobilizing to create new germline insertions in cattle.
In the first part of the study, we leveraged whole genome sequencing (WGS) data from a large pedigree (Damona, totaling 753 WGS), consisting of 131 extended nuclear families of HF cattle, to try to identify de novo ERV insertions meeting the following criteria: absent in the parents, present in the offspring, and transmitted to the next generation. Five such mutations were detected and validated after analyzing the 2x131 gametes, all belonging to the same family as the APOB insertion. Four and one were of paternal and maternal origin, respectively. Strikingly, three originated from the same sire. All together this demonstrated the current activity of this ERV family in both male and female germlines, and it allows us to hypothesize an inter-individual variation in de novo transposition rate (dnTR) within this cattle population.
But, to assess this inter-individual variation in dnTR, a robust and quantitative method was needed, one that could be exploited on a large scale and precisely measure this molecular phenotype (dnTR) in a cohort of individuals. This was the most time-consuming and technically challenging part of this thesis. The method, which was eventually developed and validated, was applied to a large cohort of sperm samples (male gametes) from 430 Belgian Blue bulls. It turned out that the dnTR phenotype did not vary throughout an individual’s reproductive life; nevertheless, it varied more than ten-fold between animals, with an average of 1 new insertion per ∼150 sperm cells.
This now-quantified molecular phenotype was subsequently used to attempt to pinpoint genomic regions potentially influencing this trait, through genome-wide association studies (GWAS). A series of
Summary
4
significant loci were identified, and detailed molecular analysis of these loci revealed that, in four out of seven cases, the most likely causative candidate variant was a polymorphic (non-fixed) insertion of an ERV from the same family. Within the cohort of 430 bulls, we then established and characterized their personal ERV catalog, capturing a total of around 300 polymorphic ERVs in this cohort. After sequencing the entire catalog, these ERVs were classified into two categories: a ‘competent’ category (C), encoding all proteins necessary for autonomous mobilization (15%), and a ‘defective’ category (D, 85%), which had lost this capacity. The four ERV GWAS loci belonged to the C category. Further analysis showed that over a quarter of the dnTR variance is explained by the number of C-type elements in the genome, which correlated positively with mobilization rates.
Finally, analysis of approximately 3,700 de novo ERV insertions revealed that they were dominated by D-type elements, suggesting that D-type elements may be taking over by hijacking the mobilization machinery of C-type elements. These findings suggest a self-regulation mechanism where D-type elements act as ‘parasites of parasites’, potentially leading to the spontaneous collapse of this ERV clade.
In the second part of this thesis, our team was invited by Etienne Bucher's team (http://plantepigenetics.ch/) to try to detect de novo mutations (new insertions) from a specific family of TEs, namely DNA transposons, and particularly the Helitron class, a unique subgroup. Helitrons are thought to create new insertions via a distinctive "peel and paste" mechanism that involves generating replication intermediates in the form of DNA circles. However, until our study, no direct evidence had demonstrated that Helitrons retained the ability to move autonomously. We adapted the quantitative method developed in cattle to Helitrons in wheat, with success, thereby providing definitive proof that a subset of wheat lines contains at least one competent (or autonomous) copy within their genome. Similarly to the C- and D-element pair of bovine ERVs, there is an equivalent ‘C’ (Feng8) and ‘D’ (Xuan1) pair coexisting in some wheat lines.
In conclusion, we hope to have provided solid evidence supporting the autonomous activity of a subset of TEs in cattle, and to have developed a robust and quantitative method that can be adapted to other eukaryotic species and other classes of active TEs. This opens the door to a wide range of studies in both male and female germlines of mammals, as well as in somatic tissues of interest.
[fr] L’Equipe Moléculaire de l’Unité de Génomique Animale s’est toujours attachée à disséquer les mécanismes moléculaires qui sous-tendent les phénotypes d’intérêt agronomique, tels les caractères de production ou les maladies mono- ou oligo-géniques, mais aussi les caractères d’intérêt plus fondamental, tels la recombinaison méiotique, la conversion génique et les mutations germinales de novo, de tout type. Le présent travail s’est intéressé à caractériser les processus biologiques capables d’influencer la création d’un type particulier de mutation de novo, à savoir les nouvelles insertions créées par la mobilisation d’éléments transposables (TE) dans la lignée germinale des bovins.
Le point de départ du travail correspond à la dissection moléculaire d’une pathologie récessive létale récemment apparue en race bovine Holstein Frisonne (HF) et dénommée ‘déficience en cholestérol’. Grâce à un clonage positionnel, le gène et la mutation causale ont été identifiés et caractérisés : il s’agit de l’insertion d’un TE, et plus particulièrement un TE de la catégorie des rétrovirus endogènes (ERVs), dans l’exon 5 d’un gène codant pour une protéine essentielle au transport du cholestérol, le gène APOB (Apolipoprotein B). Cette insertion, qui génère une perte de fonction totale du gène, est récente et spécifique de la race HF, ce qui laissait à penser que cette famille d’ERVs (ERV2-1-LTR-BT) pouvait encore être capable de se mobiliser pour créer de nouvelles insertions germinales chez les bovins.
Dans la première partie du travail, nous avons tiré profit des séquences ‘génome entier’ (WGS) d’un large pédigrée (Damona, 753 WGS au total), constitué de 131 familles nucléaires étendues de bovins HF, pour tenter d’identifier des insertions de novo d’ERV répondant donc aux critères suivants : absentes chez les parents, présentes chez le descendant et transmises à la génération suivante. Cinq mutations ont ainsi été détectées et validées après analyse des 2x131 gamètes, elles appartiennent à la même famille que celle de l’insertion d’APOB. Quatre d’entre elles étaient d'origine paternelle et une d'origine maternelle. De manière frappante, trois provenaient du même père. Dans l’ensemble, cela prouve la présente activité de cette famille d’ERVs dans les lignées germinales mâle et femelle, et cela nous permet d’émettre l’hypothèse d’une variation interindividuelle du taux de transposition de novo (dnTR) au sein de cette population bovine.
Cependant, pour évaluer cette variation interindividuelle du dnTR, il fallait développer une méthode robuste et quantitative, applicable à large échelle et permettant de mesurer précisément ce phénotype moléculaire (dnTR) pour une cohorte d’individus. Ce fût la partie la plus longue et techniquement délicate de cette thèse. La méthode, finalement mise au point, et ensuite validée, a été appliquée à une large cohorte d’échantillons de sperme (gamètes mâles) de 430 taureaux Blanc-Bleu belges. Il s’est avéré que le phénotype dnTR ne variait pas au cours de la vie reproductive d’un individu, mais que, par
1
contre, il variait de plus de dix fois entre individus, avec une moyenne d’une nouvelle insertion par ∼150 gamètes.
Ce phénotype moléculaire, maintenant rendu quantitatif, a donc été utilisé pour tenter d’identifier d’éventuelles régions génomiques influençant ce caractère, et ce grâce à des études d’association type ‘génome entier’ (GWAS). Une série de loci significatifs a été mise en évidence et la dissection moléculaire fine de ceux-ci a révélé que, pour quatre sur sept d’entre eux, le variant candidat causatif le plus probable était l’insertion polymorphe (non fixée) d’un ERV de la même famille. Au sein de la cohorte des 430 taureaux, nous avons alors établi et caractérisé leur catalogue personnel d’ERVs, pour un total d’environ 300 ERVs polymorphes capturés dans cette cohorte. Après séquençage complet des éléments du catalogue, il s’est avéré que ces ERVs pouvaient être rangés en deux catégories, une catégorie définie comme ‘compétente’ (C), c-à-d encodant toutes les protéines nécessaires à la mobilisation autonome (15 %) et une autre définie comme ‘défective’ (D, 85 %), ayant perdu cette capacité. Les quatre loci ERV identifiés par GWAS appartenaient à la catégorie C. Une analyse plus approfondie a montré que plus d’un quart de la variance du dnTR est expliquée par le nombre d’éléments de type C dans le génome, avec une corrélation positive avec les taux de mobilisation.
Enfin, l’analyse d’environ 3.700 insertions de novo d’ERVs a révélé qu’elles étaient dominées par des éléments de type D, suggérant que ces derniers prendraient le dessus en détournant la machinerie des éléments de type C. Ces résultats suggèrent donc un mécanisme d’autorégulation, où les éléments de type D agissent comme des ‘parasites de parasites’, pouvant potentiellement conduire à l’extinction spontanée de cette famille d’ERV.
Dans la seconde partie de ce travail, notre équipe a été sollicitée par l’équipe d’Etienne Bucher (http://plantepigenetics.ch/) pour tenter de mettre en évidence des mutations de novo (nouvelles insertions) d’une famille de TE particulière, faisant partie des transposons à ADN, et plus particulièrement de la classe des Hélitrons, une classe spéciale en leur sein. En effet, les Hélitrons sont supposés générer de nouvelles insertions via un mécanisme très personnel, qualifié de ‘détacher puis coller’ qui implique la génération d’intermédiaires de réplication existant sous forme de cercles d’ADN. Cependant, et jusqu’à notre étude, aucune évidence directe, démontrant que des Hélitrons avaient gardé la possibilité de bouger de manière autonome, n’avait été démontrée. Nous avons alors adapté la méthode quantitative, développée en bovin, aux Hélitrons du blé, et ce avec succès. Amenant ainsi la preuve définitive que certaines lignées de blé renferment au moins une copie pouvant être qualifiée de compétente (ou autonome) au sein de leur génome. Et de manière similaire à la paire d’éléments ‘C’ et ‘D’ des ERVs du bovin, il existe aussi une paire semblable ‘C’ (Feng8) et ‘D’ (Xuan1) cohabitant dans certaines lignées de blé.
2
Résumé
En conclusion, nous espérons avoir apporté des preuves solides supportant l’activité autonome de certains TE chez le bovin, avoir développé une méthode robuste et quantitative pouvant être adaptée à d’autres espèces d’eucaryotes et à d’autres catégories de TE encore actifs. Cela ouvre la porte à une large série d’études, tant dans les lignées germinales des mammifères, autant mâle que femelle, que dans des tissus somatiques d’intérêt.