Matetango: giugno 2016

La matematica è davvero ricca di curiosità e visto che il tema del prossimo Carnevale della Matematica #98, ospitato da il Post di Maurizio Codogno è proprio "curiosità" aprirei questo articolo su genoma e matematica con questa "curiosità" numerica trovata da Alexandre Angers:
"Aspettiamo il Carnevale della Matematica il 14.6.2016!
1 + 4 + 6 + 2 + 0 + 1 + 6 = 20, il numero totale di amminoacidi diversi codificati nel DNA!"

Il ricercatore Alexandre Angers durante una spiegazione davanti ai cartelloni dell'Open Day,

preparati insieme al collega Mauro Petrillo

Lo scorso 28 Maggio, la sede di Ispra (VA) del Centro Comune di Ricerca (JRC) della Commissione europea aveva aperto le sue porte al pubblico in occasione dell'Open Day 2016, che per quest'anno aveva come tema "Dare un senso alla scienza".
Dal primo Open Day, nel 1992, la manifestazione è diventata sempre più importante e popolare, dando la possibilità di entrare nel fantastico mondo della scienza e di scoprire il ruolo fondamentale del Centro Comune di Ricerca (JRC) all'interno dell'Unione europea.
Il JRC, Joint Research Center comunitario, è uno dei sei punti di eccellenza della ricerca europea sparsi per tutta l’Unione: due in Belgio, uno in Germania, uno in Spagna, un altro nei Paesi Bassi e, appunto, quello italiano che si trova proprio in provincia di Varese nel Comune di Ispra.
Ricerche su ambiente, trasporti, economia, energia sostenibile, salute e sicurezza, connessioni digitali, smart city......che ogni giorno vedono occupati scienziati e ricercatori da ogni dove, costituiscono la punta d’eccellenza della ricerca comunitaria e, in questa giornata, hanno appagato la curiosità degli innumerevoli visitatori.

Passando da una curiosità all'altra, da una ricerca all'altra, mi sono imbattuta in un ricercatore, Alexandre Angers, che spiegava, con vero entusiamo e passione, la ricerca a cui si stava dedicando.
Inizialmente mi avevano affascinato i cartelloni e le immagini dedicate al genoma, poi sono stata davvero catturata dalle spiegazioni del ricercatore e da un librone dal titolo "Genoma del pomodoro" vol.1.
Alexandre aveva infatti in mano questo libro piuttosto voluminoso che riportava stampate le prime serie del genoma del pomodoro, facendo rilevare che quello era solo un primo volume di altri circa 200 volumi che, nello loro totalità, avrebbero reso leggibili tutte le serie del genoma.

"Genoma del pomodoro" vol.1 di circa 200 volumi
La "Human Genome Library" è pari a 118 volumi con oltre 3 miliardi di caratteri (basi)
L'intero genoma umano è disponibile dal 2007 per la visualizzazione in formato cartaceo
presso la Wellcome Collection di Londra (UK)

E'indubbio che nel panorama della scienza contemporanea, la biologia molecolare ha assunto un ruolo di fondamentale importanza e il bisogno crescente di conoscere intere sequenze genomiche, per analizzarle e confrontarle, ha reso necessaria l’integrazione delle tecniche sperimentali, proprie della ricerca biologica, con le metodologie formali della matematica e dell’informatica.
Queste motivazioni, come sottolineava Alexandre, hanno stimolato la nascita e lo sviluppo di un particolare settore di ricerca matematica, la biologia computazionale, con l’obbiettivo di sviluppare opportuni metodi e strumenti per problemi computazionali derivanti da questioni poste dalla ricerca genomica.
Grazie anche delle spiegazioni del ricercatore, ma senza pretesa di essere esaustiva, vorrei evidenziare alcuni contributi della ricerca matematica ed informatica al sequenziamento genomico, cioè al processo per ottenere la stringa corrispondente ad un genoma complesso, a partire dalla sua versione biochimica.

Cartellone n° 1 - Genomi a confronto

Ma vediamo prima di cosa si tratta e cosa si intenda per genoma.
Il termine genoma è stato coniato nel 1920 dal botanico tedesco Hans Winkler (professore di botanica ad Amburgo) e viene fatto risalire o al verbo greco γίγνομαι ("divenire"), o alla fusione delle parole gene e cromosoma, come suggerito dall'"Oxford English Dictionary".
Anche se il termine definisce l’insieme dei cromosomi di una cellula aploide di organismo eucariota, un genoma è molto più che la somma delle sue parti, poiché ci sono interazioni di tipo evolutivo, funzionale e strutturale tra diverse regioni del genoma stesso, la cui conoscenza è parte essenziale della sua caratterizzazione.
È noto ormai che l’informazione genetica è immagazzinata in una cellula per mezzo di molecole nucleiche, le quali possono essere pensate come stringhe di elementi più piccoli chiamati nucleotidi.
Molti dei più importanti problemi della moderna biologia molecolare (compresa la caratterizzazione sia statica che dinamica di un genoma) corrispondono a questioni di tipo combinatorio, statistico ed algoritmico ed è quindi sempre più essenziale una interazione fra la biologia molecolare e la matematica.
Risalgono a Stanislaw Ulam una serie di formalizzazioni matematiche rivelatesi fondamentali, sia come contributo tecnico ma ancor più come indicazione della strada da seguire per lo sviluppo di un nuovo tipo di ricerca matematica che avesse importanti riscontri nel campo di una scienza tradizionalmente considerata di natura sperimentale.
All’inizio degli anni Settanta, la disponibilità di (allora poche) sequenze biologiche aveva già reso evidente che il comportamento di una cellula era codificato nel DNA e che, per comprenderlo, occorreva stabilire relazioni tra sequenze lunghe centinaia o addirittura migliaia di basi.
Ulam formalizzò questo problema definendo una nozione di distanza tra sequenze biologiche.

Tale nozione si basa su tre tipi di operazioni che si possono definire sulle sequenze:
1) sostituzione di un carattere con un altro;
2) inserzione di un carattere;
3) cancellazione di un carattere.
Date due sequenze, la loro distanza è definita come il numero minimo di operazioni dei tre tipi indicati che occorre applicare sulla prima sequenza per ottenere la seconda.

L’intuizione, oggi comunemente accettata come principio guida nell’analisi di sequenze biologiche, è che due sequenze molto vicine hanno (con grande probabilità) storie evolutive comuni e funzioni analoghe.
Tale nozione di distanza, riformulata in seguito da altri ricercatori, può essere considerata per molti versi come il primo strumento fondamentale fornito dalla matematica e dall’informatica agli studi sulle relazioni tra parti diverse dello stesso genoma o di genomi diversi.
Man mano che la disponibilità di sequenze sempre più lunghe rendeva sempre più articolati i problemi sulle relazioni fra diverse sequenze di DNA, i matematici e gli informatici sono stati sollecitati a produrre risultati scientifici sempre più specifici e algoritmi sempre più efficienti, mirati a coadiuvare i biologi nelle ricerche sulla struttura del genoma.
Come sottolineava l'amico ricercatore va considerato soprattutto il fatto che i matematici e gli informatici, che si sono impegnati in questo tipo di ricerche, non si sono limitati ad una mera applicazione di risultati già noti, ma hanno sviluppato nuove metodologie e prodotto risultati originali che sono ormai talmente numerosi e profondi dal punto di vista teorico ed applicativo, da generare delle discipline scientifiche autonome: la Biologia Computazionale e la Bioinformatica.
E va ricordato anche che, in questo contesto, il Progetto Genoma Umano - Human Genome Project (le tappe del HGP), iniziato formalmente nel 1990 e completato nel 2003, 2 anni prima del suo programma originale, ha avuto una grandissima forza propulsiva nel creare un’interazione più stretta tra biologia molecolare, matematica ed informatica, con ricerche e soluzioni di algoritmi efficienti, in grado di gestire gigantesche quantità di dati, e che producano risultati soddisfacenti per i biologi, con un delicato processo di formalizzazione matematica del problema biologico.

Human Genome Project (le tappe del HGP - iniziato formalmente nel 1990,

fu completato nel 2003, 2 anni prima del suo programma originale)

Come ho ricordato prima, Alexandre aveva in mano un libro (Genoma del pomodoro vol.1) piuttosto voluminoso che riportava stampate le prime serie del genoma del pomodoro: solo un primo volume di altri volumi che, nello loro totalità, avrebbero reso leggibili tutte le serie del genoma.
Questo per evidenziare la complessità del problema di poter fare un’analisi approfondita delle funzioni del genoma che deve basarsi su una visione globale della sua struttura.
L’analisi di un genoma è essenziale per acquisire informazioni sulla storia evolutiva che ha portato nel tempo a certi mutamenti genetici e riguardo ai meccanismi che accomunano i diversi organismi viventi.
La disponibilità delle sequenze corrispondenti a genomi di diverse specie (fra cui quelle dell’uomo) e un’analisi comparativa di queste sequenze, hanno reso possibile indagini più approfondite a questo riguardo.
Ad esempio, un’importante osservazione è che la lunghezza di un genoma in termini di basi non è indicativo della complessità biologica di un organismo.
A prova di ciò si può osservare nel cartellone n°1 che il genoma del pino taeda (Loblolly pine), una varietà di albero tipico degli Stati Uniti molto usato nella produzione della carta, è 7 volte più grande di quello dell’uomo.
La complessità di un organismo sembra piuttosto dipendere dalla quantità di geni contenuti nel suo DNA o addirittura il numero di proteine che tali geni riescono a sintetizzare.
Viene naturale chiedersi quanto il genoma umano sia più complesso rispetto a quello di altri organismi.
Il cartellone comparativo n°1 fa vedere appunto alcune significative differenze tra i genomi.

Cartellone n°2 - Importanza del DNA per la salute e la sicurezza

Può essere curioso un dato comparativo fra il genoma umano e quello della drosophila melanogaster (il moscerino della frutta).
Il genoma umano è lungo circa tre miliardi di basi (come si legge nel cartello n°1 stesso numero di basi del salmone) mentre quello della drosophila è di circa 120 milioni di basi.
Noi abbiamo un numero di geni stimato tra i 30 ed i 40 mila mentre la drosophila ne ha circa la metà.
Circa 3 mila di tali geni sono ortologhi, ovvero possono essere visti come discendenti da un antenato comune: in un certo senso, tali geni rappresentano il corredo genetico "minimo" che un organismo deve avere per poter sopravvivere.
Le differenze più spiccate tra il nostro patrimonio genetico e quello della drosophila si osservano invece riguardo ai geni che svolgono le loro funzioni sul sistema nervoso, su quello immunitario e su quello legato allo sviluppo.

Come ho precedentemente accennato, il genoma di un organismo è un’entità dinamica, nel senso che svolge il suo compito di sintetizzare proteine grazie a certe interazioni fra le sue parti. Tali interazioni non avvengono necessariamente localmente, ma possono coinvolgere parti del genoma fisicamente molto distanti.

Un primo approccio al sequenziamento del DNA con le 4 basi: Adenina, Citosina, Guanina e Timina

(denotate, nella notazione standard, proprio con le lettere A, C, G, T)

Ma forse è opportuno vedere bene cosa sia il DNA e come si formino le serie del genoma.
Una molecola di DNA è costituita da due filamenti legati in una doppia elica.
Ciascuno dei due filamenti è una catena di molecole più piccole, dette nucleotidi e ogni nucleotide è composto da uno zucchero, un fosfato e una base.
E' interessante osservare che solo quattro tipi diversi di basi compongono il DNA: Adenina, Citosina, Guanina e Timina (denotate, nella notazione standard, proprio con le lettere A, C, G, T), quattro diverse basi azotate atte a specificare i 20 amminoacidi.
Adenina e Timina sono complementari, nel senso che tendono a legarsi chimicamente una all’altra, lo stesso dicasi per Guanina e Citosina, e i due filamenti che costituiscono il DNA sono legati uno all’altro proprio secondo questo principio di complementarietà.
Conoscere la molecola del DNA significa quindi conoscere come si succedono, una dopo l’altra, le basi in uno dei due filamenti (l’altro filamento si ottiene come complemento del primo).
Il processo di decodifica della sequenza biochimica delle basi del DNA nella corrispondente parola nell’alfabeto (A, C, G, T) è chiamato sequenziamento.
Si noti che, in base alla posizione relativa di alcuni atomi di carbonio, è possibile anche stabilire l’orientamento del filamento di DNA che stiamo esaminando.

Il sequenziamento è un processo di decodifica estremamente sofisticato.

Già negli anni Settanta erano state messe a punto alcune tecniche di laboratorio (Metodo Sanger - Video DNA Sanger Sequencing) che permettevano di individuare la sequenza iniziale (le prime 300-900 basi) di un dato frammento di DNA.
L’invenzione di questo metodo di sequenziamento ha segnato una svolta epocale nel campo della biologia molecolare e lo dimostra anche il fatto che Fred Sanger ricevette per questo motivo il suo secondo Nobel per la Chimica nel 1980 (il primo lo ricevette nel 1958 per aver determinato la sequenza degli amminoacidi dell'insulina).
Tuttavia, occorreva molto tempo per sequenziare in questo modo lunghi tratti di DNA: per leggere un intero genoma umano sarebbero necessari più di tre anni di lavoro. Inoltre, era una tecnica molto costosa
Fino a pochi anni fa comunque i metodi utilizzati per il sequenziamento si basavano proprio sul metodo di Sanger, mentre oggi le tre piattaforme di sequenziamento di nuova generazione che stanno avendo maggiore impatto sul mondo scientifico sono il "454 della Roche"(Video Roche/454 DNA Sequencing), il "Solexa dell’Illumina"(Video Illumina Solexa Sequencing) ed il "Solid dell’Applied Biosystem" (Video Solid DNA Sequencing).
L’esigenza di conoscere lunghe e complesse sequenze di DNA, se non addirittura l’intero genoma di un organismo, ha posto la necessità di introdurre sempre nuove strategie di laboratorio che, insieme ad opportuni metodi computazionali, abbiano la capacità di amplificare il potere di decodifica del sequenziamento base.
Se, ad esempio, negli anni ottanta i mezzi tecnici a disposizione permettevano di ottenere, mediante shotgun sequencing, la traduzione di sequenze composte da migliaia di basi, il ricorso a nuove metodologie ha permesso di ottenere sequenze genomiche composte da centinaia di milioni (genoma della Drosophila) e miliardi di basi (genoma Umano).

Serie di sequenziatori che utilizzano il metodo Sanger

Ovviamente i problemi computazionali uniti a una sequenza lunga miliardi di basi sono ben diversi da quelli incontrati per sequenze lunghe solo migliaia di basi.
I sistemi di sequenziamento di nuova generazione hanno quindi le potenzialità di accelerare notevolmente la ricerca biologica e biomedica, rendendo possibile una più approfondita analisi di genomi, nonché trascrittomie delle sequenze di interazione tra DNA e proteine.
Queste nuove tecniche hanno il vantaggio di ridurre costi e tempi, ma soprattutto di ottenere grandi quantità di informazioni con un unico ciclo di sequenziamento.
A questo inevitabilmente segue la necessità di sviluppare algoritmi di bioinformatica sempre più avanzati per poter gestire la grande mole di dati e per permetterne una più immediata analisi ed una sempre più corretta interpretazione biologica.
Il bello, però, deve ancora arrivare. E arriverà con i sequenziatori di terza generazione, che pur essendo poco più che prototipi, promettono già grandissime cose.

I prossimi anni vedranno sicuramente una nuova rivoluzione nel campo del sequenziamento, ma ancora non è chiaro se a portarla saranno macchine sempre più costose e potenti (Pacific Biosciences) o piccoli strumenti low-cost grandi come una chiavetta USB (Oxford Nanopore ), capaci di entrare con più facilità nella pratica medica di routine.

Dal punto di vista matematico, l’aspetto comune a tutti i problemi menzionati è che la loro modellizzazione ed il loro studio si riduce spesso alla ricerca di soluzioni per problemi combinatori ed algoritmici su grafi e che spesso queste formalizzazioni danno luogo a problemi algoritmici NP-Hard.

Ancora una volta, questo autorizza ad utilizzare metodi e risultati noti nel campo della teoria della Complessità Computazionale.

Come faceva ben notare l'amico ricercatore, i più che soddisfacenti risultati ottenuti nella determinazione della sequenza del genoma (dal più semplice al più complesso) hanno messo in evidenza l’importanza del ruolo svolto dai matematici e dagli informatici nella soluzione di un antico problema della biologia molecolare, cui difficilmente si sarebbe pervenuti con il semplice uso della sperimentazione di laboratorio e senza il ricorso a metodi formali e computazionali.
Tuttavia i rapporti di "Nature e Science", non si sono limitati ad evidenziare i contributi delle cosiddette scienze esatte per il sequenziamento, ma hanno anche indicato quanti e quali strumenti matematici e computazionali possano essere utilizzati.
Ci si può quindi aspettare che la realizzazione di algoritmi più efficienti e l’applicazione di metodi matematici più adeguati, permetta anche di migliorare la capacità di identificare i geni.
Algoritmi e metodi matematici che vengono supportati dal costante e inarrestabile progresso tecnologico legato alla genomica che non finisce mai di stupire.

Cartellone n° 3 - Lettura e sequenziamento del DNA

Tutti si aspettavano grandi novità dal meeting AGBT di Marco Island, in Florida, ma forse nessuno si sarebbe aspettato di assistere alla presentazione di un sequenziatore di DNA USB.
Anche se Alexander ha sottolineato che più che l'immediato presente riguarderebbe un prossimo futuro, l’azienda inglese Oxford Nanopore ha messo sul mercato un sequenziatore poco più grande di una chiavetta USB, che collegato a un pc portatile potrà sequenziare del materiale genetico e, in tempo reale, trasmettere i dati a un software installato sul computer.
Non si può fare a meno di riflettere sul fatto che l’analisi dell’informazione contenuta nel genoma è la sfida che ha tenuto impegnati e che terrà impegnati nei prossimi anni i biologi molecolari e anche, come ormai dato per scontato dalla comunità scientifica internazionale, i matematici e gli informatici.

Traducendo il titolo di un libro edito da Lander e Waterman, si può dire che le discipline matematiche che affrontano le questioni biologiche contribuiscono alla costruzione della teoria del "Calcolo del Segreto della Vita"!
"Calculating the secrets of life" che ha fatto si che il costo per sequenziare un genoma umano sia diminuito di un milione di volte in dieci anni e che si possa ipotizzare che arriverà il giorno in cui ci presenteremo dal nostro medico di fiducia con una chiavetta USB contenente i nostri dati genetici.
Grazie a queste informazioni conosceremo i farmaci più efficaci per noi e lo stile di vita che ci aiuterà a restare sani più a lungo.
Già oggi, con un Sequenziatore di Nuova Generazione (NGS) è possibile sapere in pochi giorni, al costo di 3.000 euro, il proprio DNA, ma si stima che entro il 2018 si potrà averlo con circa 100 euro.
Non si sa ancora quando entreremo veramente nell’era della medicina genomica, ma quando quel momento arriverà, il merito sarà degli incredibili progressi fatti negli ultimi anni dalla chimica del sequenziamento, resi possibili solo dai contributi matematici e informatici.

Note

Sito del prossimo Carnevale della Matematica #98

Il Post di Maurizio Codogno

Sito dell'elenco dei precedenti e futuri Carnevali della Matematica

Matematti

Fonti

From the book
E. LANDER - M. WATERMAN, editors, Calculating the secrets of life: Contributions of the Mathematical Sciences to Molecular Biology, National Academy
Press, 1995.
RIDLEY MATT, editor, Genoma: L'autobiografia di una specie in ventitré capitoli
Press, 2002
From website
https://mygenomix.wordpress.com/
http://www.bdim.eu/
https://it.wikipedia.org
https://en.wikipedia.org
From the pictures
Foto e immagini dei cartelloni concesse da Alexandre Angers e Mauro Petrillo ricercatori presso il JRC, Joint Research Center comunitario di Ispra (VA)

Matetango

venerdì 3 giugno 2016

Il pomodoro c'entra con la matematica?