Può un computer tradurre un linguaggio morto come un alfabeto cuneiforme? Se la risposta era "no" fino ad oggi, ora Regina Barzilay e Ben Snyder dell' MIT, e Kevin Knight della University of Southern California, hanno dimostrato la possibilità di effettuare traduazioni così complesse.
I tre ricercatori hanno sviluppato un algoritmo che, nel giro di ore, ha decifrato l'antico linguaggio semitico chiamato Ugaritico, basato su caratteri cuneiformi. Uno strumento che potrà rivelarsi preziosissimo per aiutare gli archeologi e realizzare nuovi sistemi di traduzione, oltre che fornire un supporto prezioso per decifrare alcuni linguaggi ancora resistenti ad ogni interpretazione.
Il software procede seguendo dei "paletti": per prima cosa, ipotizza che il linguaggio da analizzare sia simile ad altri linguaggi. Nel caso dell' Ugaritico, l'algoritmo effettua una comparazione con l'ebraico.
Lo step successivo è quello di elaborare in modo sistematico una mappatura del linguaggio da analizzare sulla base di quello preso come modello, e notare i simboli che ricorrono più frequentemente tra i due linguaggi.
Il software parte dal presupposto che ogni linguaggio dovrebbe avere delle parole con origini comuni, come "main" e "mano" in francese e spagnolo, o "homme" e "hombre". E sulla base di queste radici condivise, effettua una mappatura del linguaggio non solo notanto le somiglianze, ma anche la frequenza dei simboli.
Elabora infine un modello probabilistico del linguaggio. "Effettuiamo analisi centinaia, migliaia di volte" afferma Snyder "ed ogni volta si aumenta la consistenza della mappatura". Fino a quando il sistema non capisce che ulteriori mappature non apporterebbero modifiche significative allo schema realizzato.
La prova di decifrazione è stata eseguita con il linguaggio Ugaritico, già decifrato da tempo ma che si presta benissimo a testare l'algoritmo. L'alfabeto Ugaritico ha 30 lettere (27 più tre addizionali), ed il software ne ha mappate con successo 29 sulla base dell'alfabeto ebraico. Circa un terzo delle parole in Ugaritico hanno affini nell'ebraico, e tra queste, il software ne ha riconosciute correttamente il 60%. "Tra quelle non corrette, spesso abbiamo visto che l'errore consisteva in una sola lettera, per cui sono tentativi decisamente buoni".
Il sistema non è ancora in grado di effettuare analisi sulla base del contesto. Ad esempio, le parole "casa" e "figlia" in Ugaritico sono composte dallo stesso set di simboli, e per ora solo un traduttore umano è in grado di capirne correttamente il significato in base al contesto.
Molto scettico su questo sistema automatico di traduzione si dimostra Andrew Robinson, autore di "Lost Languages" del 2002 nel quale scrisse "la decifrazione archeologica richiede logica di sintesi e intuizione...che i computer non possiedono (e probabilmente non potranno mai avere)".
Secondo Robinson, l'approccio dei ricercatori presuppone che il linguaggio da decifrare abbia un alfabeto mappabile sulla base dell'alfabeto di un linguaggio noto, il che "non è di certo il caso di qualunque manoscritto ancora non decifrato".
Aggiunge inoltre che, nel caso dell' Ugaritico, è ben chiaro quando inizia o finisce una parola, cosa non altrettanto chiara con i testi che resistono ad ogni tentativo di decifrazione.
"Ogni linguaggio ha le sue sfide" conferma Barzilay. "Probabilmente, una decifrazione di successo richiederà di aggiustare il metodo in base alle peculiarità del linguaggio". Ma spiega che la decifrazione dell'Ugaritico ha comportato anni di studi ed alcune fortunate coincidenze, come la scoperta di un'ascia con sopra incisa la parola "ascia" in Ugaritico. "Il risultato del nostro sistema avrebbe reso il processo di decifrazione molto più breve" sostiene Barzilay.
Di certo i ricercatori che hanno sviluppato il sistema non si sbilanciano (giustamente) nel dire che non sarà più richiesto l'intervento umano nella decifrazione di testi antichi. "Ma è uno strumento potente che può aiutare il processo di decifrazione".
Computer automatically deciphers ancient language