An in-depth study of random forests methodologies for short biomarker signature discovery

Debit, Ahmed

Request a copy

Doctoral thesis (Dissertations and theses)

An in-depth study of random forests methodologies for short biomarker signature discovery

Debit, Ahmed

2020

Permalink
https://hdl.handle.net/2268/249891

Files (1)Send to Details Statistics Bibliography Similar publications

Files

Full Text

PhD_thesis_manuscript.pdf

Author preprint (3.75 MB)

Request a copy

All documents in ORBi are protected by a user license.

Send to

RIS BibTex APA Chicago Permalink X Linkedin

Details

Keywords :

biomarker signature; random forest; feature selection; FS stability; RNA-seq; RF model interpretation; robustness; combinatorial

Abstract :

[en] Biomarker signatures in cancer are generally defined as a single or a combined alteration of genes associated with a defined biological tumor phenomenon. These signatures are providing clinicians with significant information to improve our understanding of cancer biology. Furthermore, with a validated specificity and sensitivity, molecular signatures can be used as a clinical tool for screening, predicting progression, and treatment response. Next generation sequencing technologies allow us to measure the expression profile of the genes with high resolution. Thanks to advances in bioinformatics techniques and the emergence of advanced statistical approaches, deriving biomarker signatures by mining such data has become increasingly popular. In this thesis, we propose a comprehensive pipeline for Short Biomarker Signature Discovery (sBSD) in cancer. The major challenge is to design a stable set of genes, as small as possible, that accurately predicts learned patterns. Furthermore, this thesis covers important aspects related to the application of machine learning techniques and bioinformatics approaches to gene expression data. Our proposed strategy focuses on the stability of methods, clinical interpretation of results, and applicability in the context of gene expression data. The scientific contributions in this work have been divided into four parts. First, an evaluation of the robustness of Feature Selection (FS) methods for RNA-seq data is performed. The robustness of FS methods has been reported to be crucial for signature discovery for clinical purposes. It is usually assessed by investigating how different resamplings of a training set affect the final set of selected genes. The novelty of our assessment method is the introduction of another type of data perturbation coming from the change in RNA-seq normalization method. Consequently, the proposed method evaluates the robustness of FS methods based on the change in resampling partition, and the change in normalization method. Two stability scores are developed in this sense: Stability Per Resampling (SPR), and Stability Per Normalization (SPN). We evaluated the robustness of 17 state-of-the-art FS methods based on such scores using three RNA-seq datasets. Second, we integrate random forest algorithm into our sBSD pipeline. It mainly fits the purpose of identifying the best signature and its alternatives. Since the original RF algorithm proposed by (Breiman Leo, 2001), several variations to RFs have been made available via the R Project for Statistical Computing, including orthogonal and oblique methods. The aim for this part is thus to assess the AUC reproducibility of 15 RF variants based on two hyper-stability scores: Hyper-stability Resampling dependent Score HRS and the Hyper-stability Signature dependent Score HSS. In particular, we focus on the question of how AUC stability can help to decide on the best predictive RF strategy in the context of Short Biomarker Signature Discovery. Third, we introduce a heuristic filtering strategy that aims to filter out less performing combinations in signatures before calculating their AUC values. This strategy overcomes computational problems related to exhaustively testing all possibilities, a daunting task for initially large signatures. Application to two datasets containing the expression of circulating miRNAs in tumor and normal samples, identifies optimal or near-optimal solutions (the best signature or its alternatives), with drastically decreased computation time. Finally, special attention is given to the interpretation of the resulting RF model, associated with the best signature. The best signature the sBSD pipeline identifies can be used as a screening, predictive, or prognostic tool for cancer. We provide some ways for interpreting signature-based RF models by deriving compact sets of rules. Although not entirely satisfactory, according to preliminary results and performance of the set of rules, it paves the way to future work in which an acceptable tradeoff between performance and interpretability can be sought.
[fr] Les signatures de biomarqueurs dans le cancer sont généralement définies comme une altération unique ou combinée de gènes associés à un phénomène tumoral biologique. Ces signatures fournissent aux cliniciens des informations importantes pour mieux comprendre la biologie des cancers. De plus, associées à des valeurs acceptées de spécificité et de sensibilité, les signatures moléculaires peuvent être utilisées comme un outil clinique pour le dépistage, la prédiction de la progression, et la réponse à un traitement. Les technologies de séquençage de nouvelle génération NGS permettent de mesurer le profil d'expression des gènes avec une haute résolution. Grâce aux progrès des techniques bioinformatiques et l’émergence des approches statistiques avancées, il est devenu possible de dériver des signatures de biomarqueurs en exploitant ces données. Dans cette thèse, nous proposons un pipeline complet pour la découverte des petites signatures de biomarqueurs (sBSD) dans le cancer. Le défi majeur est de concevoir un ensemble stable de gènes, aussi petit que possible, qui prédit avec précision les profiles appris. En outre, cette thèse couvre des aspects importants liés à l'application des techniques d'apprentissage automatique et des approches bioinformatiques sur les données d'expression génique. Notre approche proposée met l’accent sur la stabilité des méthodes, l'interprétation clinique des résultats et leur application dans le contexte des données d'expression génique. Mes contributions scientifiques dans ce travail sont divisées en trois parties. Tout d'abord, une évaluation de la robustesse des méthodes de sélection de variables (FS) pour les données RNA-seq a été réalisée. La robustesse des méthodes de sélection a été rapportée comme étant cruciale pour la découverte des signatures à des fins cliniques. La robustesse est généralement évaluée en examinant comment différents ré-échantillonnages d'un ensemble d'apprentissage affectent l'ensemble final de gènes sélectionnés. La nouveauté de notre méthode d'évaluation est l'introduction d'un autre type de perturbation des données provenant du changement de méthode de normalisation RNA-seq. Par conséquent, la méthode proposée évalue la robustesse des méthodes de sélection FS sur la base du changement de partition de ré-échantillonnage et du changement de méthode de normalisation. Deux scores de stabilité sont développés dans ce sens: stabilité par ré-échantillonnage (SPR) et stabilité par normalisation (SPN). Nous avons évalué la robustesse de 17 méthodes FS sur la base de ces scores en utilisant trois ensembles de données RNA-seq. Deuxièmement, l'algorithme de forêt aléatoire (RF) est intégré dans notre pipeline sBSD. Cet algorithme est principalement utilisé pour l'identification de la meilleure signature et ses alternatives. Depuis que l'algorithme RF original a été proposé par (Breiman Leo, 2001), de nombreuses variantes RF ont été implémentées grâce au projet R pour le calcul statistique, incluant des méthodes orthogonales et obliques. Le but de cette partie est d'évaluer la reproductibilité AUC de 15 variantes RF sur la base de deux scores d’hyper-stabilité: l’hyperstabilité échantillonnage dépendante (HRS), et l’hyperstabilité signature dépendante (HSS). Toutes les combinaisons éventuellement générées à partir d’un nombre k de variables ont été évaluées et leurs valeurs AUC ont été calculées. Ce processus implique la construction et la prédiction du modèle RF. La méthode Random Forest a été utilisée pour cela. Ces scores ont été conçus pour évaluer l’hyperstabilité de ces méthodes: l’hyperstabilité échantillonnage dépendante (HRS) et l’hyperstabilité signature dépendante (HRS). En particulier, la question abordée est de savoir comment la stabilité de l'AUC peut aider à choisir la meilleure stratégie RF à utiliser dans le contexte de conception de petites signatures de biomarqueurs sBSD. Troisièmement, on présente une stratégie de filtrage heuristique dont l’objectif est de filtrer les combinaisons moins performantes avant de calculer leurs valeurs AUC. Cette stratégie surmonte les problèmes de calcul liés au test exhaustif de toutes les possibilités, une tâche ardue pour le nombre de signatures initialement volumineux. Cette stratégie a été appliquée sur 2 ensembles de données contenant l'expression des mi-RNA circulants dans des échantillons tumoraux et normaux. La stratégie a pu identifier des solutions optimales ou quasi optimales (la meilleure signature ou ses alternatives), et a considérablement réduit la complexité en temps de calcul. Dans la dernière partie, l'accent a été mis sur l'interprétation du modèle RF associé à la meilleure signature. La meilleure signature identifiée à l'aide du pipeline sBSD peut être utilisée comme un outil de dépistage, de prédiction ou de pronostic du cancer. Nous avons fourni des moyens d'interpréter le modèle RF associé à la signature en dérivant un ensemble compact de règles de décisions. Des analyses ont été faites en utilisant deux méthodes pour générer ces règles, et des résultats préliminaires ont été obtenus. Bien que ces résultats n’étant pas entièrement satisfaisants (les performances de l'ensemble de règles extraites ont diminué), cette partie pointe vers des travaux futurs afin d’augmenter les performances du modèle RF associe à la meilleure signature, et parvenir à un compromis acceptable entre performance et interprétablité.

Research Center/Unit :

GIGA‐R - Giga‐Research - ULiège

Disciplines :

Life sciences: Multidisciplinary, general & others

Author, co-author :

Debit, Ahmed ; Université de Liège - ULiège > GIGA

Language :

English

Title :

An in-depth study of random forests methodologies for short biomarker signature discovery

Defense date :

2020

Number of pages :

185

Institution :

ULiège - Université de Liège

Degree :

PhD Bioinformatics

Promotor :

Van Steen, Kristel ; Université de Liège - ULiège > GIGA > GIGA Medical Genomics - Biostatistics, biomedicine and bioinformatics

Poulet, Christophe ; Université de Liège - ULiège > Département des sciences biomédicales et précliniques

President :

Louppe, Gilles ; Université de Liège - ULiège > Département d'électricité, électronique et informatique (Institut Montefiore) > Big Data

Jury member :

Bours, Vincent ; Centre Hospitalier Universitaire de Liège - CHU > Service de génétique

Azencott, Chloe-agathe

Boulesteix, Anne-Laure

Name of the research project :

WALInnov-NACATS 1610125

Funders :

Région wallonne

Available on ORBi :

since 03 August 2020

Statistics

Number of views

250 (28 by ULiège)

Number of downloads

42 (10 by ULiège)

More statistics