lunedì 17 febbraio 2014

FILTERING & ANNOTATION: L'ULTIMA FASE DELL'ANALISI BIOINFORMATICA

Ultimo aggiornamento: 14.05.2015

Le operazioni di filtering & annotation costituiscono la terza ed ultima fase dell'analisi bioinformatica. A precedere filtering & annotation vi sono (1) la fase di ricostruzione delle sequenze geniche del paziente (alignment) e (2) quella di identificazione delle deviazioni (varianti) del paziente rispetto alle sequenze di riferimento del genoma umano (variant calling).

filtering and annotation: la terza ed ultima fase dell'analisi bioinformatica

Poiché un'analisi NGS (sia che si tratti di un'analisi di un ristretto gruppo di geni, sia che si tratti di un exome o di un genome sequencing) porta all'identificazione di una grandissima quantità di varianti, è necessario procedere ad un'attenta selezione eliminando tutti i polimorfismi clinicamente neutrali e restituendo al genetista una lista finale limitata a poche varianti dal possibile significato patogeno.

FILTERING

Nella fase di filtering si ha la riduzione di numero più massiccia, essendo utilizzati criteri di selezione piuttosto ampi, ma efficaci. Alcuni criteri utilizzati in un'operazione di filtering sono:

- la frequenza allelica (solitamente il sistema esclude automaticamente tutte le varianti con frequenza uguale o superiore all'1%, poiché per questi valori è estremamente concreta la probabilità che si tratti di polimorfismi neutrali),

- la presenza delle varianti in tessuto normale e tessuto tumorale (in alcune analisi di oncogenetica, volendo individuare le mutazioni somatiche sviluppatesi nelle sole cellule tumorali, si procede all'esclusione di tutte le varianti che sono presenti sia nel tessuto normale che nel tessuto tumorale)

- la modalità di segregazione delle varianti nell'albero genealogico (nell'analisi di geni candidati, il sistema seleziona tutte le varianti compatibili con un dato modello di trasmissione; ad esempio, nell'ipotesi che si stia cercando di individuare la mutazione patogena in una famiglia con una malattia a chiara trasmissione autosomica recessiva, il sistema selezionerà automaticamente tutte le varianti che sono eterozigoti nei genitori e omozigoti nel figlio affetto).

In linea di massima, nella diagnostica delle malattie a trasmissione mendeliana, la frequenza allelica è il criterio più usato.

ANNOTATION

Una volta terminata la fase di filtering, che riduce notevolmente il numero di varianti su cui indirizzare l'attenzione, si passa alla fase di annotation, che può essere automatica, ma non di rado è ancora parzialmente o totalmente manuale. La fase di annotation è in effetti più complessa, poiché si cercano di prendere in considerazione parametri multipli: risultato delle predizioni in silico, possibile influsso del contesto genomico circostante, eventuali effetti modulatori sul fenotipo pur in assenza di un effetto patogeno diretto e, se esistenti, dati già pubblicati in letteratura.

Le predizioni in silico vengono fatte tramite software che danno dei punteggi di patogenicità o benignità della mutazione (l'analisi in silico è molto utilizzata nello studio delle mutazioni missenso e delle mutazioni con possibile effetto sullo splicing). Esistono anche sistemi in grado di interrogare singolarmente diversi software, resistuendo un sommario dei vari punteggi ottenuti (è il caso di Alamut di Interactive Biosoftware, strumento in grado di integrare i risultati di SIFT, Align-GVGD, Polyphen2, Mutation Taster e di ben cinque programmi di predizioni dello splicing, nonché di recuperare i dati sulla frequenza allelica da dbSNP ed ESP e i dati della letteratura scientifica a partire da Human Genome Mutation Database - HGMD. Al momento Alamut può essere interrogato per una sola variante alla volta.

Alcuni degli algoritmi più frequentemente usati per la fase di annotation sono SIFT (Sorting Intolerant from Tolerant), PolyPhen2, PROVEAN, VariBench, snpEEF, SNPeffect, SeattleSeq, ANNOVAR, VAAST (Variant Annotation, Analysis and Search Tool), VAT (The Variant Analysis Tool), VARIANT (VARIant ANalysis Tool) e VAR-MD.

Per saperne di più: Libri e Pubblicazioni sulla Bionformatica (in italiano), Libri e Pubblicazioni sulla Bioinformatica (in inglese), Libri e Pubblicazioni sulla Next Generation Sequencing.

Nessun commento: