Un database su cinque è contaminato da DNA umano

I tecnici di genetica forense sanno bene quanto è importante evitare contaminazioni mentre maneggiano i campioni da analizzare: basta una distrazione, ed ecco che ci si ritrova sul banco degli imputati a causa della “prova del DNA”. Per questo motivo, vengono adottati tutta una serie di accorgimenti che garantiscono che il risultato dell’analisi sia veramente affidabile. Purtroppo, non si usa altrettanta cura in tutte le altre analisi genetiche, ad esempio quando si deve sequenziare un nuovo genoma.

Mark Longo dell’Università del Connecticut ha infatti scoperto che su 2749 database genomici da lui analizzati, ben 492 contengono sequenze contaminanti di DNA umano. I database oggetto della ricerca si riferiscono a batteri, piante, pesci: tutte specie che con gli esseri umani non hanno proprio niente a che vedere. Eppure, in un genoma su 5 sono stati trovati dei segni inequivocabili di una contaminazione: sono le sequenze ALU, sequenze di DNA presenti esclusivamente nei genomi dei primati. Longo le ha individuate sia nelle sequenze grezze prodotte dai sequenziatori, sia – ancora peggio – nei genomi completi, assemblati dai software bioinformatici.

Un database su cinque è contaminato da DNA umano

Le contaminazioni in genere sono provocate da cellule della pelle, o da capelli che accidentalmente cadono nei campioni da sequenziare. Questa, almeno, è la spiegazione che si dà quando si parla di DNA umano, ma la ricerca ha rivelato anche casi più bizzarrì: i database del genoma dell’ornitorinco, ad esempio, contengono sequenze che sembrerebbero appartenere al wallaby tammar. Qualcuno potrebbe chiedersi come mai, visto che generalmente i wallaby non sono ammessi nei laboratori di ricerca. La risposta è che molti istituti possiedono librerie genomiche di molte specie diverse nello stesso momento, che attendono di essere analizzate: per vari motivi, può succedere che tracce di un campione finiscano per sbaglio dentro un altro.

La scoperta è molto preoccupante, per due motivi. Il primo è di tipo tecnico: se le cose stanno così, significa che i filtri dei software bioinformatici non funzionano, dal momento che queste sequenze dovrebbero essere eliminate prima di fare l’assemblaggio. Il secondo motivo riguarda il prossimo futuro. Arriverà il giorno in cui ognuno di noi potrà farsi sequenziare per pochi euro, al fine di ottenere cure mediche personalizzate: chi ci garantirà che il DNA analizzato sarà veramente il nostro? Distinguere una sequenza umana da una sequenza batterica è relativamente semplice, ma quando a confronto ci sono due genomi umani la faccenda è molto più complicata.

Longo, M., O’Neill, M., & O’Neill, R. (2011). Abundant Human DNA Contamination Identified in Non-Primate Genome Databases PLoS ONE, 6 (2) DOI: 10.1371/journal.pone.0016410