In occasione del TechFest 2012, Microsoft ha presentato una nuova tecnologia davvero rivoluzionaria per quanto riguarda il campo delle traduzioni linguistiche.
Durante la dimostrazione sono state presentate diverse funzionalità, tra cui la più sorprendente è la capacità di tale software di riconoscere il proprio linguaggio, tradurlo simultaneamente e riprodurlo con la propria tonalità di voce. La simultaneità della traduzione si potrà avere tramite smartphone con una certa potenza di calcolo oppure mediante l’utilizzo di servizi cloud.
Tale tecnologia supporta ben 26 lingue, come affermato dal creatore del software Frank Soong, e potrebbe far diventare realtà una delle cose che fino a poco tempo fa sembrava fantascienza, come ad esempio comunicare con altre persone all’estero senza conoscere la lingua, mediante il semplice utilizzo di uno smartphone.
Text-to-Speech multi-lingua
Per prima cosa hanno mostrato come il prototipo di questo software sia riuscito a superare i limiti dei tradizionali Text-to-Speech (TTS) che riescono a pronunciare soltanto un’unica lingua. Tale software consente infatti di pronunciare correttamente frasi contenente termini appartenenti a diverse lingue, come mostrato in una delle dimostrazioni effettuate durante la presentazione:
“Driving directions to Beijing Railway Station. Head south on 中关村(Zhong Guan Cun)南大街(Nan Da Jie), then toward 大慧寺路(Da Hui Si Lu), turn left at 白石新桥(Bai Shi Xin Qiao), continue onto 西直门(Xi Zhi Men)外大街(Wai Da Jie)。” - Clicca per riprodurre
Una tale funzionalità potrebbe, ad esempio, essere utilizzata nei navigatori satellitari.
Convertire la voce
In un’altra dimostrazione è stato mostrato come tale sistema riesca a pronunciare frasi anche molto lunghe in un’altra lingua (diversa da quella parlata dall’utente) mantenendo lo stesso accento, timbro ed intonazione dell’utente. Durante la presentazione sono state riprodotte alcune frasi tradotte in Spagnolo e Mandarino con la stessa tonalità vocale di Rick Rashid (Chief Research Officer della Microsoft) che è invece Inglese (Clicca qui per ascoltare la sua voce originale):
“Bienvenido a TechFest 2012, donde hoy se podrá ver de primera mano cómo Microsoft Research está estudiando las tendencias tecnológicas clave que definirán el siglo 21.” – Clicca per riprodurre
“新年好,欢迎大家来微软亚洲研究院,我为大家读一首诗,我的中文说得不大好,请各位多多批评和指教。
李白的下江陵
朝辞白帝彩云间,千里江陵一日还。
两岸猿声啼不住,轻舟已过万重山。
谢谢大家!” - Clicca per riprodurre
Per poter utilizzare in modo ottimale tale funzionalità è però necessario effettuare un allenamento di alcune ore per dare al software la possibilità di creare un modello di voce simile a quello dell’utente.
Avatar 3D sincronizzato con la voce del TTS
Un’altra simpatica funzionalità di questo software è la capacità di creare un avatar 3D che sincronizza le labbra con la voce del TTS. Infatti durante la presentazione è stato mostrato come Craig, che è inglese, riesca a parlare Cinese anche senza conoscerlo:
Clicca per riprodurre il video dell’avatar 3D con TTS inglese
Clicca per riprodurre il video dell’avatar 3D con TTS cinese
Video
Infine vi proponiamo di seguito il video della presentazione tenutasi al TechFest 2012 (la tecnologia presentata nell’articolo viene mostrata a partire dal minuto 12).
Collegamenti utili
- Microsoft Research