Reference : From Statistical to Biological Interactions via Omics Integration
Dissertations and theses : Doctoral thesis
Engineering, computing & technology : Multidisciplinary, general & others
http://hdl.handle.net/2268/199583
From Statistical to Biological Interactions via Omics Integration
English
Bessonov, Kyrylo mailto [Université de Liège > Dép. d'électric., électron. et informat. (Inst.Montefiore) > Bioinformatique >]
4-Jul-2016
Université de Liège, ​Liège, ​​Belgique
Docteur en Sciences Appliquées
Van Steen, Kristel mailto
Geurts, Pierre mailto
Meyer, Patrick mailto
BOURS, Vincent mailto
STOLL, Monika mailto
Schwikowski, Benno mailto
[en] Genome-wide association interaction (GWAI) ; gene regulatory networks ; conditional inference forest ; epistasis ; ankylosing spondylitis ; cis-regulation ; trans-regulation ; expression quantitative trait loci ; integration ; multiomics
[en] The XXI century opened a new ‘Big Data’ era in which, thanks to rapid technological advancements and appearance of high throughput technologies, vast amounts of unstructured omics data (e.g., transcriptomic, genomic, etc.) are generated every day. This thesis mainly focuses on solving the problems related diverse omics data integration and interaction identification tasks. Particular attention is given to useful knowledge extraction in the context of complex diseases including pathological mechanisms with the development of software tools and pipelines. The diseases covered included glioblastoma multiforme, asthma, and ankylosing spondylitis.
Interactions detection in genomic data requires standardization of the protocols. In Chapter 3, we tested the impact of different settings in a genome-wide association interaction study (GWAIS). Some of the settings included marker selection strategy, the LD pruning, lower order effects adjustment, analytical tool. We were able to show that even small changes in each setting can have drastic impacts requiring careful assessment of proper settings and results comparisons across several analysis protocols. The greatest impact was attributed to the input dataset composition highlighting the importance of the marker selection strategy and use of prior knowledge.
Expression of genes can be affected by nearby (‘cis’) or distant (‘trans’) genotypes. Thus, we developed methodology to identify complex trans/cis regulatory mechanisms between expression and genotype data in the context of asthma (CAMP data). Significant overlap between ‘trans’ and ‘cis’ gene regulatory components related to immune and signaling pathways was clearly identified matching asthma disease pathology. The semi-parametric Model-Based Multifactor Dimensionality Reduction (MB-MDR) method was applied for the first time in the context eQTL study achieving low false discovery and family-wise error rates (FDR and FWER).
Identification of a meaningful data structure from omics data is a pressing topic nowadays. Gene regulatory networks (GRN) conveniently summarize large amounts of data allowing for useful knowledge generation. GRN inference is especially attractive for deciphering of complex diseases mechanisms allowing biologists to formulate a better hypothesis. We were able to generate GRNs from a single source (e.g., microarray expression data) using conditional inference forest (CIF)
with more attractive features compared to classical Random-Forest (RF) including unbiased node variable selection even in the context of highly correlated variables particularly relevant in transcriptomics. The CIF methods provided attractive features and performance characteristics coupled to valuable pathological insights into type 1 diabetes.
[fr] Le XXIe siècle a ouvert une nouvelle ère du «Big Data». Grâce aux progrès rapides et à l’apparition des technologies à haut débit, de vastes quantités de données omiques non structurées (par exemple transcriptome, génomique, etc.) sont générées chaque jour. Cette thèse s’axe principalement sur la résolution des problèmes liés à l'identification des interactions et l'intégration de divers données omiques. Une attention particulière a été accordée à l'extraction de connaissances «utiles» dans le contexte des maladies complexes, y compris les mécanismes pathologiques, ainsi qu’au développement de logiciels et de pipelines. Les maladies couvertes incluent le glioblastome multiforme, l'asthme et la spondylarthrite ankylosante.
La détection des interactions dans les données génomiques exige la standardisation du protocole. Nous avons testé l'impact des différents paramètres sur la composition des résultats finaux dans une étude d'interaction association pangénomique (GWAIS) sur l'ensemble du génome. Certains des paramètres en questions sont la sélection de la stratégie des marqueurs de sélection, le déséquilibre de liaison (LD), le faible ajustement des effets principaux et l’outil d'analyse choisi. Nous avons pu montrer que chaque paramètre pourrait avoir des effets drastiques qui nécessitent une évaluation attentive des paramètres appropriés et d’analyse comparative des résultats entre plusieurs pistes. Le plus grand impact a été attribué à la composition de l'ensemble de données lié à la stratégie de sélection des marqueurs et à l’utilisation de connaissance préalable.
L'expression des gènes pourrait être affectée par génotypes à proximité (‘cis’) ou à distance (‘trans’). Ainsi, nous avons cherché à identifier des mécanismes mixtes trans/cis existants entre les données d'expression et de génotypes dans le contexte de l'asthme (données CAMP). Un chevauchement important existe entre les composants de régulation ‘trans’ et ‘cis’ liés au système immunitaire et à la signalisation correspondant à la pathologie de la maladie de l'asthme. La méthode semi-paramétrique Model-Based Multifactorielle Dimensionnalité Réduction (MB-MDR) a été appliqué pour la première fois dans l'étude eQTL, ce qui a permis d’atteindre un taux de faux positifs bas.
La recherche d'une structure de données significatives à partir de plusieurs sources hétérogènes de données omiques est un sujet de recherche important à l’heure actuelle. Les réseaux de régulation
des gènes (GRN) résument facilement de grandes quantités de données permettant la production de connaissances utiles. L’inférence GRN est particulièrement attrayante pour déchiffrer des mécanismes de maladies complexes permettant aux biologistes de formuler des hypothèses plus exactes. Nous avons été en mesure de produire un GRN à partir d'une seule source (par exemple, les données de biopuces d’expression) en utilisant des forêts d’inférence conditionnelle (CIF) avec des caractéristiques plus attrayantes par rapport à des forêts aléatoires classiques (Random Forests). Les avantages comprennent l’impartialité de sélection de variables liées à un noeud, l’impartialité même dans le contexte de variables corrélées particulièrement pertinente pour les donnes transcriptomique. Les CIF méthodes possèdent des caractéristiques attrayantes et conduisent à de bonnes performances. Ces méthodes fournissent des idées sur les mécanismes pathologiques du le diabète de type 1.
Fonds de la Recherche Scientifique (Communauté française de Belgique) - F.R.S.-FNRS
Researchers ; Professionals
http://hdl.handle.net/2268/199583

File(s) associated to this reference

Fulltext file(s):

FileCommentaryVersionSizeAccess
Open access
PhD_thesis_integromics_v4_annotated_final_11Oct2016.pdfPublisher postprint9.16 MBView/Open

Additional material(s):

File Commentary Size Access
Open access
thesis_online_supplimentraty_kb.ziponline thesis supplementary (figures, tables)7.37 MBView/Open
Open access
Thesis_public_talk_4th_July_KB_FINAL.pdfthesis defense slides3.81 MBView/Open

Bookmark and Share SFX Query

All documents in ORBi are protected by a user license.