Assemblathon: bioinformatici a duello!

Immaginate di avere tra le mani questo puzzle: un bel disegno chiaro, 24 pezzi. Quanto tempo pensate di impiegarci per completarlo? Immagino pochi minuti.

Finito? Bravi! Ok, ora passiamo a qualcosa di più difficile… Di molto più difficile… Ad esempio questo! 24mila pezzi. Dura eh?

E cosa ne dite se il disegno del puzzle da 24mila pezzi fosse questo frattale? Molto probabilmente non riuscireste a completarlo in una vita intera.

Perché parlarvi di puzzle e frattali? Per farvi indossare, per una volta, i panni di un bioinformatico alle prese con i dati di sequenziamento di un genoma. I genomi, infatti, non si leggono dall’inizio alla fine, senza interruzioni, come se fossero un romanzo: non è tecnicamente possibile. I sequenziatori di DNA producono sequenze più o meno piccole, che poi vanno riassemblate proprio come le tessere di un puzzle. Il primo che vi ho mostrato corrisponde ai dati di sequenziamento di prima generazione (metodo Sanger): sequenze lunghe, “facilmente” assemblabili. Il secondo riflette la situazione di un sequenziamento di seconda generazione, come quello dei Genome Analyzer di Illumina: sequenze piccolissime, assemblaggio difficile. Il terzo puzzle è il più complesso di tutti, e si verifica quando si hanno sequenze molto corte e un genoma molto difficile da assemblare: così come i frattali, certi genomi (soprattutto quelli di alcune piante) sono molto ricchi di ripetizioni e diventa pressoché impossibile ricostruire tutto il “disegno”.

Mettere a punto degli algoritmi efficaci di assemblaggio è uno degli obiettivi più importanti della bioinformatica: mentre la tecnologia avanza rapidamente verso il genoma da 1000 dollari, l’analisi dei dati a valle è ancora zoppicante. Per stimolare la realizzazione di nuovi software è nato Assemblathon, una competizione internazionale a cui possono partecipare i gruppi di bioinformatica desiderosi di mettere alla prova, su genomi sintetici (cioè non esistenti in natura), i loro programmi di assemblaggio. Per iscriversi è sufficiente effettuare il download dei dati grezzi dal sito internet, provare ad assemblarli e consegnare il risultato entro il 6 Febbraio. Facoltativamente si può anche utilizzare come riferimento un genoma completo già assemblato, evolutivamente parlando una sorta di cugino di quello ignoto. Gli assemblaggi prodotti saranno valutati secondo diversi parametri e verranno poi discussi ad un workshop che si terrà il 14-16 Marzo a Santa Cruz, California. L’incontro è sponsorizzato dal Genome 10K Project, che mira a sequenziare 101 genomi entro il 2012: immagino sarà molto interessato ai nuovi algoritmi che saranno presentati, voi che dite?