Doctoral thesis (Dissertations and theses)
CONTRIBUTION TO EPISTASY MAPPING METHODS THROUGH THE USE OF NON-PARAMETRIC METHODOLOGY
Abo Alchamlat, Sinan
2018
 

Files


Full Text
Sinan These.pdf
Publisher postprint (2.28 MB)
Download

All documents in ORBi are protected by a user license.

Send to



Details



Abstract :
[en] Introduction These last years have seen the emergence of a wealth of genetic information at the molecular level. Some of the main recent breakthroughs in biology originate from this new knowledge, allowing application of new strategies in many fields of the biological research. Although approaches targeting the association between phenotypic characteristics and DNA variations have been successful, many elements in the genetic landscape of the studied traits are still unknown and uncharacterized. A track to new findings, potentially useful for a better understanding of complex determinisms, is the detection of interactions between genomic regions affecting the traits of interest rather than single locus associations. While the detection of such interactions has been the focus of many methods, and despite some successes of these methods to solve difficult problems and to detect some of these genetic interactions, there is currently no gold standard method able to detect interactions in all situations, and the relative performances of these methods remain largely unclear. This thesis is a contribution to this field of interactions mapping:in the first study, we propose a novel approach combining K-Nearest Neighbors (KNN) and Multi Dimensional Reduction (MDR) methods for the detection of gene-gene interactions as a possible alternative to existing algorithms, especially in situations where the number of involved determinants is high. In the second study, we propose another strategy based on the principle of the aggregation of experts, where the experts would be a set of popular published methods. Results The results obtained in the first study on both simulated data and real genome-wide data demonstrate some of the features that make KNN-MDR interesting in terms of accuracy and power: in many cases, it significantly outperforms its recent competitors. More specifically, the analyses on a real large dataset demonstrate the feasibility of scans using a large number of markers, as opposed to MDR where the computer burden explodes with the number of markers (when it simply increases linearly with KNN-MDR). This might for example allow highlighting interactions between markers far apart on the genomic map (trans-interactions), while some strategies propose to restrict the scans to close-by markers (cis-interactions) or to markers with significant marginal effects to reduce the amount of computations. For the second study, we also show that aggregating methods results is a strategy with interesting features for detecting epistatic interactions. Experimental results, based again on simulated and real genome-wide data, show that the aggregated predictor can produce better performances, in terms of statistical power and false positive rates, than each individual predictor to detect genetic interactions. It is consequently a useful addition to the various methods available to tackle this complicated problem. Conclusion and Perspectives In this dissertation, we focused on investigating and developing non-parametric statistical methods aiming at the detection of genetic interactions. We have shown that our novel methods complement, and sometimes improve, existing approaches used to detect genetic interactions in simulated and real datasets. The presented methodologies (KNN-MDR and aggregation of experts) are valuable in the context of loci and interaction mapping and can enhance the understanding of the biological mechanism underlying traits of interest, including diseases. More precisely, the new knowledge gained using these methodologies can assist in the prediction of clinical diseases and can contribute to provide new therapeutic opportunities. To take further steps to these appealing perspectives, a first objective could be to implement a better version of the KNN-MDR software. The improvements could be on the overall performance of the software (optimization of the time-consuming parts of the program, parallelization), but also on the improvement of the “user-friendliness” of the program. This would involve an easier (and maybe automated) tuning of the parameters allowing an optimal detection power. These parameters include: the optimal sizes of the windows - which are dependent on the studied population, the markers density, the LD pattern, the optimal size of the neighborhoods to be considered, the pre-selection of markers in the early phase of large dataset analyses, the used distance measure or the adaptative selection scheme for the selection of markers in large studies, among others, the use of other types of genomic variants (microsatellites, copy number variations, sequencing data). Another potential track would be to use a priori information on the interactions: this could be by using the results of previous studies, or by exploiting the known information on gene networks.  
[fr] Introduction Ces dernières années ont vu l'émergence de sources riches d'informations génétiques au niveau moléculaire. Certaines des principales percées récentes en biologie proviennent de ces nouvelles connaissances, permettant l'application de nouvelles stratégies dans de nombreux domaines de la recherche biologique. Bien que les approches ciblant l'association entre les caractéristiques phénotypiques et les variations de l'ADN aient été couronnées de succès, de nombreux éléments dans le paysage génétique des caractères étudiés sont encore inconnus et non caractérisés. Une piste potentielle vers de nouvelles découvertes, qui pourrait aider à mieux comprendre les déterminismes complexes, est de détecter les interactions entre les régions plutôt que les associations avec une région unique. Alors que de nombreuses méthodes ont été proposées pour détecter de telles interactions et malgré le succès de ces méthodes pour résoudre certains problèmes et détecter certaines de ces interactions génétiques, il n'existe actuellement aucune méthode de référence capable de détecter les interactions dans toutes les situations. De plus, les méthodes restent relativement peu efficaces. Cette thèse est une contribution au développement de méthodes dans ce domaine. Dans la première étude, nous proposons une nouvelle approche combinant les méthodes des K Plus Proches Voisins (KNN) et de Réduction Multidimensionnelle (MDR) pour détecter les interactions entre régions génomiques comme alternative possible aux algorithmes existants, notamment dans les situations où le nombre de déterminants impliqués est plus élevé que deux. Dans la deuxième étude, nous proposons une stratégie basée sur le principe de l'agrégation d'experts, où les experts seraient différentes méthodes de détection d’interactions validées et publiées dans des revues scientifiques. Résultats Les résultats obtenus dans la première étude à la fois sur des données générées par simulation et sur des données réelles à l'échelle du génome démontrent certaines des caractéristiques qui rendent l’application du modèle KNN-MDR potentiellement intéressante en matière de précision et de puissance : dans de nombreux cas, il surclasse nettement ses concurrents. De plus, des analyses sur un large ensemble de données réelles démontrent la faisabilité d'analyses utilisant un grand nombre de marqueurs, par opposition à la méthode MDR où la charge informatique explose avec le nombre de marqueurs (alors qu’elle augmente simplement linéairement avec KNN-MDR). Cela pourrait par exemple permettre de mettre en évidence des interactions entre des marqueurs éloignés sur la carte génomique alors que certaines stratégies proposent de limiter les scans aux marqueurs proches ou à un ensemble de marqueurs préalablement sélectionné pour réduire la quantité de calculs. Pour la seconde étude, nous montrons aussi que la méthode de l'agrégation des résultats est une stratégie avec des caractéristiques intéressantes pour détecter les interactions épistatiques. Les résultats expérimentaux, basés à nouveau sur des données simulées et réelles à l'échelle du génome, montrent que le prédicteur agrégé peut produire de meilleures performances que chaque prédicteur individuel pour détecter des interactions génétiques, et est donc un complément utile aux diverses méthodes disponibles pour résoudre ce problème compliqué. Conclusions et Perspectives Dans cette thèse, nous nous sommes concentrés sur l'étude et le développement de méthodes statistiques non paramétriques pour la détection des interactions génétiques. Les méthodes que nous proposons sont présentées pour compléter et améliorer les approches existantes utilisées pour détecter les interactions génétiques dans des ensembles de données réelles et simulées. Les méthodologies présentées (KNN-MDR et agrégation d'experts) sont utiles dans le contexte de la cartographie des interactions et peuvent améliorer la compréhension du mécanisme biologique sous-jacent à divers caractères d'intérêt, y compris des maladies. L’acquisition de cette nouvelle connaissance, outre la compréhension fondamentale qu’elle implique, peut par exemple contribuer à la prédiction pronostique ou diagnostique des maladies étudiées, peut offrir de nouvelles possibilités thérapeutiques ou peut conduire à l’amélioration de caractères ayant un intérêt médical, agronomique, zootechnique ou autre. Pour aller plus loin par rapport à ces perspectives attrayantes, un premier objectif pourrait être de mettre en œuvre une meilleure version du logiciel KNN-MDR. Les améliorations pourraient porter sur la performance globale du logiciel (optimisation des parties chronophages du programme, parallélisation), mais aussi sur l'amélioration de la "convivialité" du programme. Cela impliquerait un réglage plus facile (et peut-être automatisé) des paramètres permettant une puissance de détection optimale. Ces paramètres comprennent: les tailles optimales des fenêtres - qui dépendent de la population étudiée, la densité des marqueurs, le modèle de LD, la taille optimale des voisins à considérer, la présélection des marqueurs dans la première phase des analyses de grands ensemble de données, la mesure de la distance utilisée ou le schéma de sélection adaptatif pour la sélection des marqueurs dans les grandes études, entre autres, l'utilisation d'autres types de variantes génomiques (microsatellites, variations du nombre de copies, données de séquençage). Une autre piste potentielle serait d'utiliser des informations sur les interactions: cela pourrait être possible en utilisant les résultats d'études antérieures, ou en exploitant les informations connues sur les réseaux de gènes.  
Precision for document type :
Critical notes/Edition
Disciplines :
Genetics & genetic processes
Mathematics
Author, co-author :
Abo Alchamlat, Sinan ;  Université de Liège - ULiège > Doct. sc. vété. (paysage)
Language :
English
Title :
CONTRIBUTION TO EPISTASY MAPPING METHODS THROUGH THE USE OF NON-PARAMETRIC METHODOLOGY
Alternative titles :
[fr] CONTRIBUTION AUX METHODES DE CARTOGRAPHIE D’EPISTASIE UTILISANT LA STATISTIQUE NON-PARAMETRIQUE
Defense date :
22 August 2018
Number of pages :
138
Institution :
ULiège - Université de Liège
Degree :
Docteur en Sciences Vétérinaires
Promotor :
Farnir, Frédéric  ;  Université de Liège - ULiège > Fundamental and Applied Research for Animals and Health (FARAH)
President :
Dewals, Benjamin G  ;  Université de Liège - ULiège > Fundamental and Applied Research for Animals and Health (FARAH) > FARAH: Santé publique vétérinaire
Jury member :
Georges, Michel  ;  Université de Liège - ULiège > GIGA > GIGA Molecular Biomimetic and Protein Engineering Laboratory
Wehenkel, Louis  ;  Université de Liège - ULiège > Montefiore Institute of Electrical Engineering and Computer Science
Druet, Tom ;  Université de Liège - ULiège > GIGA > GIGA Medical Genomics - Unit of Animal Genomics
Detilleux, Johann ;  Université de Liège - ULiège > Département de gestion vétérinaire des Ressources Animales (DRA)
Geurts, Pierre ;  Université de Liège - ULiège > Montefiore Institute of Electrical Engineering and Computer Science
Hornick, Jean-Luc  ;  Université de Liège - ULiège > Fundamental and Applied Research for Animals and Health (FARAH) > FARAH: Productions animales durables
GILBERT, Hélène
DEPIERREUX, Eric
Available on ORBi :
since 23 August 2018

Statistics


Number of views
129 (15 by ULiège)
Number of downloads
156 (7 by ULiège)

Bibliography


Similar publications



Contact ORBi