domenica 10 maggio 2015

ANALISI DELEZIONE/DUPLICAZIONE SU DATI NGS

algoritmo per analisi del dup su dati ngs
L'analisi delezione/duplicazione - detta spesso anche analisi delle CNV (Copy Number Variation) -si fa di solito tramite l'utilizzo di metodiche specifiche come la MLPA (Multiplex Ligation Probe Amplification), la qPCR (quantitative qPCR) o, per delezioni/duplicazioni particolarmente grandi, la FISH (Flourescence In Situ Hybridization). Oggi però è possibile fare il test delezione/duplicazione anche esaminando esclusivamente i dati del sequenziamento, quando questo sia fatto con la NGS (Next Generation Sequencing).

Perché si fa l'analisi delezione/duplicazione?

Le grosse delezioni o duplicazioni possono essere patogeniche, perciò la loro ricerca è spesso fondamentale sia nella diagnostica che nella ricerca. Le delezioni o le duplicazioni di grosse dimensioni (tipicamente da poche decine a molte centinaia di basi) non posso essere rilevate direttamente al sequenziamento (sia esso Sanger o NGS) e vanno dunque ricercate tramite l'utilizzo di metodiche molecolari specifiche. 

L'analisi computazionale di delezione/duplicazione è possibile solo su dati ottenuti da Next Generation Sequencing, in particolare in caso di Whole Genome Sequencing (WGS) o Whole Exome Sequencing (WES), mentre non è possibile farla su dati da sequenziamento Sanger. Nessun algoritmo da solo è sufficiente a garantire uno screening completo, ma con un approccio combinato si possono virtualmente vagliare tutti i tipi di CNV.

Quali metodi esistono per lo studio di delezione/duplicazione su dati NGS?

Esistono 4 metodi diversi per eseguire l'analisi computazionale di delezione/duplicazione su dati NGS. Come anticipato, questi quattro metodi possono anche essere utilizzati in combinazione (CA: combined approach) per raggiungere risultati ottimali. I quattro metodi sono:

RP: read-pair

SR: split read

RD: read-depth

AS: assembly-based

Vediamoli più nel dettaglio qui sotto.

METODO READ-PAIR (RP)

Nel metodo RP (read-pair) si confronta la dimensione osservata dell'inserto con la dimensione attesa sulla base della reference sequence (si leggano anche l'articolo sul pair-end sequencing e sul mate pair sequencing). In caso di discordanza fra dimensione osservata e dimensione attesa, l'algoritmo restituisce un risultato di delezione o duplicazione. Il vantaggio di questo metodo sta nella possibilità di rilevare delezioni o duplicazioni di grandi dimensioni, mentre possono sfuggire eventi di poche decine di basi. I programmi basati sul metodo RP sono PEMer, Hydra, Ulysses e BreakDancer.

METODO SPLIT READ (SR)

Anche il metodo split read (SR) è basato sul sequenziamento di tipo pair-end (pair-end sequencing) ed è applicabile nei casi in cui si riesca a mappare sulla sequenza di riferimento una read soltanto (il che indica che la seconda read cade molto probabilmente in una regione di breakpoint). Rispetto al metodo RD, il metodo SR presenta maggiori difficoltà nella rilevazione di eventi di grossa dimensione, mentre è utile nella rilevazione di piccole delezioni o inserzioni (Gustaf, uno dei software basati sul metodo SR, può rilevare variazioni a partire da 30 bp di lunghezza). Il metodo SR può consentire la localizzazione e la caratterizzazione precisa dei breakpoint. Oltre a Gustaf, sono basati sul metodo SR i seguenti programmi: Pindel, Prism, svseq2.

METODO READ DEPTH (RD)

Il metodo read depth (RD), piuttosto intuitivo, consiste nella conta del numero di reads ottenute da una certa regione. Il metodo RD si basa sul presupposto che laddove vi sia una duplicazione o una moltiplicazione il numero di read ottenute durante il sequenziamento aumenti, mentre laddove vi sia una riduzione o una perdita totale del numero di copie il numero di read si riduca o si annulli. Il metodo RD può essere applicato in un singolo campione confrontando il numero di reads ottenute da regioni cromosomiche adiacenti o in un insieme di campioni sequenziati con lo stesso livello di coverage confrontando il numero di reads ottenute dalla medesima regione cromosomica. Vi sono due differenze principali fra il metodo RD e i metodi RP e SR: (1) tramite il metodo RD si può quantificare la CNV (si può ad esempio dire se l'inserzione di materiale cromosomico abbia portato ad una semplice duplicazione o a una triplicazione/moltiplicazione del materiale genomico), mentre i metodi RP e SR possono definire l'evento solo in termini qualitativi (perdita o aggiunta); (2) tramite il metodo RD è possibile rilevare CNV anche molto grandi, mentre può essere problematico riconoscere variazioni inferiori a mille paia di basi (1kb). Una limitazione del metodo RD è che esso non consente di localizzare con precisione i breakpoint. I programmi che utilizzano il metodo RD sono: CNV-seq, BIC-seq, cm.MOPS, CNVnator, ERDS, RDXplorer, ReadDepth, SegSeq, CNVrd2.

METODO ASSEMBLY-BASED (AS)

Con il metodo assembly based (AS) il confronto viene fatto non fra regioni cromosomiche specifiche, ma direttamente fra contigs o scaffolds. Il metodo AS è però utilizzato raramente perché richiede un potere di calcolo estremamente elevato e non è in grado di rilevare CNV emi o eterozigoti, ma sono CNV omozigoti. Magnolya è un software basato sul metodo assembly.

L'APPROCCIO COMBINATO (COMBINED APPROACH - CA)

Un approccio combinato (CA) è possibile per aggirare le limitazioni di ogni singolo metodo. Di solito il CA consiste nell'applicazione di due o più dei metodi sopra citati in modalità step-wise (uno dopo l'altro). Vi sono diversi programmi studiati appositamente per l'approccio combinato: SVDetect, cnvHiTSeq, Clever-sv, CNVer, DELLY, GenomeSTRiP, Gindel, GASVPro, Hydra-Multi, LUMPY, PSCC, SoftSearch. Una delle migliori associazioni è quella fra metodo RP e RD che virtualmente consente di rilevare CNV di qualsiasi grandezza localizzandone esattamente i breakpoint. 

Argomenti correlati:

Nessun commento: