lunedì 10 febbraio 2014

ANALISI BIOINFORMATICA: LA VERA SFIDA DEL FUTURO

Come si fa ad analizzare i dati di un exome sequencing o di un genome sequencing? Alignment, Variant Calling e Filtering & Annotation: le basi dell'analisi bioinformatica.

Con l'avvento della Next Generation Sequencing (NGS) (e con l'avvicinarsi delle metodiche di Third Generation Sequencing!) la quantità di dati ottenibili in una singola corsa è divenuta a dir poco enorme. Tutti le macchine NGS, dai sequenziatori più grandi fino ai più piccoli modelli benchtop, sono in grado di sequenziare milioni di basi per volta. Basti pensare che l'output di una qualunque delle piccole PGM da banco (Ion PGM, Ion Proton, MiSeq) è già nell'ordine delle gigabasi (si parla cioè di miliardi di nucleotidi a corsa). Dunque, se da un lato il mercato è ancora in cerca di sistemi a resa sempre più elevata e, soprattutto, a costi sempre più contenuti, dall'altro è evidente che una delle maggiori sfide del futuro si apre proprio sul versante dell'analisi dei dati, cioè sul versante dell'analisi bioinformatica.

Diciamo subito che l'analisi bioinformatica dei dati NGS è completamente automatizzata. Al genetista rimane solo il compito di interpretare un gruppo ristretto di varianti che il sistema seleziona in tre fasi: alignment (allineamento), variant calling (selezione delle varianti) e filtering and annotation (filtraggio e annotazione). Vediamo più nel dettaglio di che cosa si tratta.

ALIGNMENT

Sappiamo che per analizzare il genoma (o l'esoma o anche solo pochi geni) di un individuo è necessario frammentare il suo DNA, così da poterlo amplificare prima e sequenziare poi. Al termine del sequenziamento, dunque, si ottengono tanti piccoli frammenti di DNA (reads) che devono essere ricongiunti a ricostruire le sequenze geniche del paziente. Questa operazione viene fatta allineando le reads alle sequenze di riferimento (reference sequences) del genoma umano, rese disponibili dal Progetto Genoma Umano e custodite in database come Genome Browser. Si tratta, in defnitiva, di un procedimento non molto dissimile dalla ricostruzione di un puzzle.

Per saperne di più sulla fase di alignment (incluse informazioni su software e algoritmi) potete leggere ALIGNMENT: COME RICOSTRUIRE LE SEQUENZE DEI GENI NELLE ANALISI NGS

VARIANT CALLING

Le sequenze geniche e intergeniche mantengono un certo grado di omologia fra un individuo e l'altro, sia pur distinguendosi per la presenza di alcune varianti dette polimorfismi. Molti di questi polimorfismi sono noti e già caratterizzati. Altri vengono identificati per la prima volta durante l'analisi del paziente. Il variant calling non è altro che la fase di identificazione di tutte le varianti del paziente. La quantità di dati ottenuta è enorme, poiché l'operazione di variant calling in un exome o genome sequencing porta all'identificazione di migliaia di varianti. La riduzione del numero di varianti da analizzare avviene nella terza fase, quella di filtering & annotation (vedi sotto)

Per saperne di più sulla fase di variant calling potete leggere l'altricolo VARIANT CALLING: LA FASE DI IDENTIFICAZIONE DELLE VARIANTI

FILTERING AND ANNOTATION

Una volta identificate le varianti del paziente (che in un'analisi di exome o genome sequencing sono nell'ordine di migliaia), il software procede in automatico alla loro caratterizzazione, filtrandole (selezionando cioè solo quelle che potrebbero avere un significato fenotipico) e annotandole (fornendo cioè tutti i dati disponibili nei database e/o in letteratura: se si tratti cioè di semplici polimorifismi, di varianti funzionali, di mutazioni patogene già descritte in letteratura o di varianti del tutto nuove e dunque dal possibile significato incerto).

Per saperne di più potete leggere FILTERING & ANNOTATION: L'ULTIMA FASE DELL'ANALISI BIOINFORMATICA.

Una volta che il software ha completato le tre fasi di alignment, variant calling e filtering & annotation, la palla passa finalmente al genetista. Dover ragionare su poche varianti può comunque essere un lavoro non semplice, poiché alle volte anche una singola variante può porre notevoli problemi interpretativi. Tuttavia, senza la fase di analisi bioinformatica automatizzata, il lavoro del professionista non sarebbe nemmeno possibile!

Per saperne di più: Libri e Pubblicazioni sulla Bioinformatica

Argomenti correlati:
Enhanced by Zemanta

Nessun commento: