Multi-view learning and data integration for omics data

Serra, Angela

Utilizza questo identificativo per citare o creare un link a questo documento: http://elea.unisa.it/xmlui/handle/10556/2580

Titolo:	Multi-view learning and data integration for omics data
Autore:	De Santis, Alfredo Tagliaferri, Roberto Greco, Dario Serra, Angela
Parole chiave:	Systems biology;Nanomaterials;Multi-view learning
Data:	23-giu-2017
Abstract:	In recent years, the advancement of high-throughput technologies, combined with the constant decrease of the data-storage costs, has led to the production of large amounts of data from diﬀerent experiments that characterise the same entities of interest. This information may relate to speciﬁc aspects of a phenotypic entity (e.g. Gene expression), or can include the comprehensive and parallel measurement of multiple molecular events (e.g., DNA modiﬁcations, RNA transcription and protein translation) in the same samples. Exploiting such complex and rich data is needed in the frame of systems biology for building global models able to explain complex phenotypes. For example, theuseofgenome-widedataincancerresearch, fortheidentiﬁcationof groups of patients with similar molecular characteristics, has become a standard approach for applications in therapy-response, prognosis-prediction, and drugdevelopment. Moreover, the integration of gene expression data regarding cell treatment by drugs, and information regarding chemical structure of the drugs allowed scientist to perform more accurate drug repositioning tasks. Unfortunately, there is a big gap between the amount of information and the knowledge in which it is translated. Moreover, there is a huge need of computational methods able to integrate and analyse data to ﬁll this gap. Current researches in this area are following two diﬀerent integrative methods: one uses the complementary information of diﬀerent measurements for the study of complex phenotypes on the same samples (multi-view learning); the other tends to infer knowledge about the phenotype of interest by integrating and comparing the experiments relating to it with respect to those of diﬀerent phenotypes already known through comparative methods (meta-analysis). Meta-analysis can be thought as an integrative study of previous results, usually performed aggregating the summary statistics from diﬀerent studies. Due to its nature, meta-analysis usually involves homogeneous data. On the other hand, multi-view learning is a more ﬂexible approach that considers the fusion of different data sources to get more stable and reliable estimates. Based on the type of data and the stage of integration, new methodologies have been developed spanning a landscape of techniques comprising graph theory, machine learning and statistics. Depending on the nature of the data and on the statistical problem to address, the integration of heterogeneous data can be performed at diﬀerent levels: early, intermediate and late. Early integration consists in concatenating data from diﬀerent views in a single feature space. Intermediate integration consists in transforming all the data sources in a common feature space before combining them. In the late integration methodologies, each view is analysed separately and the results are then combined. The purpose of this thesis is twofold: the former objective is the deﬁnition of a data integration methodology for patient sub-typing (MVDA) and the latter is the development of a tool for phenotypic characterisation of nanomaterials (INSIdEnano). In this PhD thesis, I present the methodologies and the results of my research. MVDA is a multi-view methodology that aims to discover new statistically relevant patient sub-classes. Identify patient subtypes of a speciﬁc diseases is a challenging task especially in the early diagnosis. This is a crucial point for the treatment, because not allthe patients aﬀected bythe same diseasewill have the same prognosis or need the same drug treatment. This problem is usually solved by using transcriptomic data to identify groups of patients that share the same gene patterns. The main idea underlying this research work is that to combine more omics data for the same patients to obtain a better characterisation of their disease proﬁle. The proposed methodology is a late integration approach based on clustering. It works by evaluating the patient clusters in each single view and then combining the clustering results of all the views by factorising the membership matrices in a late integration manner. The eﬀectiveness and the performance of our method was evaluated on six multi-view cancer datasets related to breast cancer, glioblastoma, prostate and ovarian cancer. The omics data used for the experiment are gene and miRNA expression, RNASeq and miRNASeq, Protein Expression and Copy Number Variation. In all the cases, patient sub-classes with statistical signiﬁcance were found, identifying novel sub-groups previously not emphasised in literature. The experiments were also conducted by using prior information, as a new view in the integration process, to obtain higher accuracy in patients’ classiﬁcation. The method outperformed the single view clustering on all the datasets; moreover, it performs better when compared with other multi-view clustering algorithms and, unlike other existing methods, it can quantify the contribution of single views in the results. The method has also shown to be stable when perturbation is applied to the datasets by removing one patient at a time and evaluating the normalized mutual information between all the resulting clusterings. These observations suggest that integration of prior information with genomic features in sub-typing analysis is an eﬀective strategy in identifying disease subgroups. INSIdE nano (Integrated Network of Systems bIology Eﬀects of nanomaterials) is a novel tool for the systematic contextualisation of the eﬀects of engineered nanomaterials (ENMs) in the biomedical context. In the recent years, omics technologies have been increasingly used to thoroughly characterise the ENMs molecular mode of action. It is possible to contextualise the molecular eﬀects of diﬀerent types of perturbations by comparing their patterns of alterations. While this approach has been successfully used for drug repositioning, it is still missing to date a comprehensive contextualisation of the ENM mode of action. The idea behind the tool is to use analytical strategies to contextualise or position the ENM with the respect to relevant phenotypes that have been studied in literature, (such as diseases, drug treatments, and other chemical exposures) by comparing their patterns of molecular alteration. This could greatly increase the knowledge on the ENM molecular eﬀects and in turn contribute to the deﬁnition of relevant pathways of toxicity as well as help in predicting the potential involvement of ENM in pathogenetic events or in novel therapeutic strategies. The main hypothesis is that suggestive patterns of similarity between sets of phenotypes could be an indication of a biological association to be further tested in toxicological or therapeutic frames. Based on the expression signature, associated to each phenotype, the strength of similarity between each pair of perturbations has been evaluated and used to build a large network of phenotypes. To ensure the usability of INSIdE nano, a robust and scalable computational infrastructure has been developed, to scan this large phenotypic network and a web-based eﬀective graphic user interface has been built. Particularly, INSIdE nano was scanned to search for clique sub-networks, quadruplet structures of heterogeneous nodes (a disease, a drug, a chemical and a nanomaterial) completely interconnected by strong patterns of similarity (or anti-similarity). The predictions have been evaluated for a set of known associations between diseases and drugs, based on drug indications in clinical practice, and between diseases and chemical, based on literature-based causal exposure evidence, and focused on the possible involvement of nanomaterials in the most robust cliques. The evaluation of INSIdE nano conﬁrmed that it highlights known disease-drug and disease-chemical connections. Moreover, disease similarities agree with the information based on their clinical features, as well as drugs and chemicals, mirroring their resemblance based on the chemical structure. Altogether, the results suggest that INSIdE nano can also be successfully used to contextualise the molecular eﬀects of ENMs and infer their connections to other better studied phenotypes, speeding up their safety assessment as well as opening new perspectives concerning their usefulness in biomedicine. [edited by Author] L’avanzamento tecnologico delle tecnologie high-throughput, combinato con il costante decremento dei costi di memorizzazione, ha portato alla produzione di grandi quantità di dati provenienti da diversi esperimenti che caratterizzano le stesse entità di interesse. Queste informazioni possono essere relative a speciﬁci aspetti fenotipici (per esempio l’espressione genica), o possono includere misure globali e parallele di diversi aspetti molecolari (per esempio modiﬁche del DNA, trascrizione dell’RNA e traduzione delle proteine) negli stessi campioni. Analizzare tali dati complessi è utile nel campo della systems biology per costruire modelli capaci di spiegare fenotipi complessi. Ad esempio, l’uso di dati genome-wide nella ricerca legata al cancro, per l’identiﬁcazione di gruppi di pazienti con caratteristiche molecolari simili, è diventato un approccio standard per una prognosi precoce più accurata e per l’identiﬁcazione di terapie speciﬁche. Inoltre, l’integrazione di dati di espressione genica riguardanti il trattamento di cellule tramite farmaci ha permesso agli scienziati di ottenere accuratezze elevate per il drug repositioning. Purtroppo, esiste un grosso divario tra i dati prodotti, in seguito ai numerosi esperimenti, e l’informazione in cui essi sono tradotti. Quindi la comunità scientiﬁca ha una forte necessità di metodi computazionali per poter integrare e analizzate tali dati per riempire questo divario. La ricerca nel campo delle analisi multi-view, segue due diversi metodi di analisi integrative: uno usa le informazioni complementari di diverse misure per studiare fenotipi complessi su diversi campioni (multi-view learning); l’altro tende ad inferire conoscenza sul fenotipo di interesse di una entità confrontando gli esperimenti ad essi relativi con quelli di altre entità fenotipiche già note in letteratura (meta-analisi). La meta-analisi può essere pensata come uno studio comparativo dei risultati identiﬁcati in un particolare esperimento, rispetto a quelli di studi precedenti. A causa della sua natura, la meta-analisi solitamente coinvolge dati omogenei. D’altra parte, il multi-view learning è un approccio più ﬂessibile che considera la fusione di diverse sorgenti di dati per ottenere stime più stabili e aﬃdabili. In base al tipo di dati e al livello di integrazione, nuove metodologie sono state sviluppate a partire da tecniche basate sulla teoria dei graﬁ, machine learning e statistica. In base alla natura dei dati e al problema statistico da risolvere, l’integrazione di dati eterogenei può essere eﬀettuata a diversi livelli: early, intermediate e late integration. Le tecniche di early integration consistono nella concatenazione dei dati delle diverse viste in un unico spazio delle feature. Le tecniche di intermediate integration consistono nella trasformazione di tutte le sorgenti dati in un unico spazio comune prima di combinarle. Nelle tecniche di late integration, ogni vista è analizzata separatamente e i risultati sono poi combinati. Lo scopo di questa tesi è duplice: il primo obbiettivo è la deﬁnizione di una metodologia di integrazione dati per la sotto-tipizzazione dei pazienti (MVDA) e il secondo è lo sviluppo di un tool per la caratterizzazione fenotipica dei nanomateriali (INSIdEnano). In questa tesi di dottorato presento le metodologie e i risultati della mia ricerca. MVDA è una tecnica multi-view con lo scopo di scoprire nuove sotto tipologie di pazienti statisticamente rilevanti. Identiﬁcare sottotipi di pazienti per una malattia speciﬁca è un obbiettivo con alto rilievo nella pratica clinica, soprattutto per la diagnosi precoce delle malattie. Questo problema è generalmente risolto usando dati di trascrittomica per identiﬁcare i gruppi di pazienti che condividono gli stessi pattern di alterazione genica. L’idea principale alla base di questo lavoro di ricerca è quello di combinare più tipologie di dati omici per gli stessi pazienti per ottenere una migliore caratterizzazione del loro proﬁlo. La metodologia proposta è un approccio di tipo late integration basato sul clustering. Per ogni vista viene eﬀettuato il clustering dei pazienti rappresentato sotto forma di matrici di membership. I risultati di tutte le viste vengono poi combinati tramite una tecnica di fattorizzazione di matrici per ottenere i metacluster ﬁnali multi-view. La fattibilità e le performance del nostro metodo sono stati valutati su sei dataset multi-view relativi al tumore al seno, glioblastoma, cancro alla prostata e alle ovarie. I dati omici usati per gli esperimenti sono relativi alla espressione dei geni, espressione dei mirna, RNASeq, miRNASeq, espressione delle proteine e della Copy Number Variation. In tutti i dataset sono state identiﬁcate sotto-tipologie di pazienti con rilevanza statistica, identiﬁcando nuovi sottogruppi precedentemente non noti in letteratura. Ulteriori esperimenti sono stati condotti utilizzando la conoscenza a priori relativa alle macro classi dei pazienti. Tale informazione è stata considerata come una ulteriore vista nel processo di integrazione per ottenere una accuratezza più elevata nella classiﬁcazione dei pazienti. Il metodo proposto ha performance migliori degli algoritmi di clustering clussici su tutti i dataset. MVDA ha ottenuto risultati migliori in confronto a altri algoritmi di integrazione di tipo ealry e intermediate integration. Inoltre il metodo è in grado di calcolare il contributo di ogni singola vista al risultato ﬁnale. I risultati mostrano, anche, che il metodo è stabile in caso di perturbazioni del dataset eﬀettuate rimuovendo un paziente alla volta (leave-one-out). Queste osservazioni suggeriscono che l’integrazione di informazioni a priori e feature genomiche, da utilizzare congiuntamente durante l’analisi, è una strategia vincente nell’identiﬁcazione di sotto-tipologie di malattie. INSIdE nano (Integrated Network of Systems bIology Eﬀects of nanomaterials) è un tool innovativo per la contestualizzazione sistematica degli eﬀetti delle nanoparticelle (ENMs) in contesti biomedici. Negli ultimi anni, le tecnologie omiche sono state ampiamente applicate per caratterizzare i nanomateriali a livello molecolare. È possibile contestualizzare l’eﬀetto a livello molecolare di diversi tipi di perturbazioni confrontando i loro pattern di alterazione genica. Mentre tale approccio è stato applicato con successo nel campo del drug repositioning, una contestualizzazione estensiva dell’eﬀetto dei nanomateriali sulle cellule è attualmente mancante. L’idea alla base del tool è quello di usare strategie comparative di analisi per contestualizzare o posizionare i nanomateriali in confronto a fenotipi rilevanti che sono stati studiati in letteratura (come ad esempio malattie dell’uomo, trattamenti farmacologici o esposizioni a sostanze chimiche) confrontando i loro pattern di alterazione molecolare. Questo potrebbe incrementare la conoscenza dell’eﬀetto molecolare dei nanomateriali e contribuire alla deﬁnizione di nuovi pathway tossicologici oppure identiﬁcare eventuali coinvolgimenti dei nanomateriali in eventi patologici o in nuove strategie terapeutiche. L’ipotesi alla base è che l’identiﬁcazione di pattern di similarità tra insiemi di fenotipi potrebbe essere una indicazione di una associazione biologica che deve essere successivamente testata in ambito tossicologico o terapeutico. Basandosi sulla ﬁrma di espressione genica, associata ad ogni fenotipo, la similarità tra ogni coppia di perturbazioni è stata valuta e usata per costruire una grande network di interazione tra fenotipi. Per assicurare l’utilizzo di INSIdE nano, è stata sviluppata una infrastruttura computazionale robusta e scalabile, allo scopo di analizzare tale network. Inoltre è stato realizzato un sito web che permettesse agli utenti di interrogare e visualizzare la network in modo semplice ed eﬃciente. In particolare, INSIdE nano è stato analizzato cercando tutte le possibili clique di quattro elementi eterogenei (un nanomateriale, un farmaco, una malattia e una sostanza chimica). Una clique è una sotto network completamente connessa, dove ogni elemento è collegato con tutti gli altri. Di tutte le clique, sono state considerate come signiﬁcative solo quelle per le quali le associazioni tra farmaco e malattia e farmaco e sostanze chimiche sono note. Le connessioni note tra farmaci e malattie si basano sul fatto che il farmaco è prescritto per curare tale malattia. Le connessioni note tra malattia e sostanze chimiche si basano su evidenze presenti in letteratura del fatto che tali sostanze causano la malattia. Il focus è stato posto sul possibile coinvolgimento dei nanomateriali con le malattie presenti in tali clique. La valutazione di INSIdE nano ha confermato che esso mette in evidenza connessioni note tra malattie e farmaci e tra malattie e sostanze chimiche. Inoltre la similarità tra le malattie calcolata in base ai geni è conforme alle informazioni basate sulle loro informazioni cliniche. Allo stesso modo le similarità tra farmaci e sostanze chimiche rispecchiano le loro similarità basate sulla struttura chimica. Nell’insieme, i risultati suggeriscono che INSIdE nano può essere usato per contestualizzare l’eﬀetto molecolare dei nanomateriali e inferirne le connessioni rispetto a fenotipi precedentemente studiati in letteratura. Questo metodo permette di velocizzare il processo di valutazione della loro tossicità e apre nuove prospettive per il loro utilizzo nella biomedicina. [a cura dell'Autore]
Descrizione:	2015 - 2016
URI:	http://hdl.handle.net/10556/2580 http://dx.doi.org/10.14273/unisa-979
È visualizzato nelle collezioni:	Ingegneria dell'Informazione

File in questo documento:

File	Descrizione	Dimensioni	Formato
tesi_di_dottorato_A_Serra.pdf	tesi di dottorato	9 MB	Adobe PDF	Visualizza/apri
abstract in inglese A. Serra.pdf	abstract in inglese a cura dell'autore	103.93 kB	Adobe PDF	Visualizza/apri
abstract in italiano A. Serra.pdf	abstract in italiano a cura dell'autore	132.34 kB	Adobe PDF	Visualizza/apri
tesi - copertina A. Serra.pdf	tesi di dottorato - copertina	1.06 MB	Adobe PDF	Visualizza/apri

Visualizza tutti i metadati del documento

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets