Magazine Informatica

Google migliora notevolmente il riconoscimento vocale

Creato il 25 settembre 2015 da Paolo Dolci @androidblogit

Una delle basi su cui si fondano gli attuali progetti di Google e su cui si baseranno anche i futuri è il riconoscimento vocale. Per il colosso di Mountain View, l'interazione fra l'uomo e la macchina (il computer, lo smartphone, lo smartwatch, lo smart hub casalingo, ecc.) attraverso mouse, tastiera e touchscreen è destinato a finire a discapito dei comandi vocali che prenderanno il sopravvento. Per tale motivo, sta lavorando veramente tanto al fine di rendere il riconoscimento vocale di Google Now quanto migliore possibile.

Nelle scorse ore, attraverso il blog dei propri sviluppatori, Google ha comunicato al mondo di essere riuscita a fare uno step in avanti verso l'interazione vocale perfetta:

Our improved acoustic models rely on Recurrent Neural Networks (RNN). RNNs have feedback loops in their topology, allowing them to model temporal dependencies: when the user speaks /u/ in the previous example, their articulatory apparatus is coming from a /j/ sound and from an /m/ sound before. Try saying it out loud - "museum" - it flows very naturally in one breath, and RNNs can capture that. The type of RNN used here is a Long Short-Term Memory (LSTM) RNN which, through memory cells and a sophisticated gating mechanism, memorizes information better than other RNNs. Adopting such models already improved the quality of our recognizer significantly.


Ritornare alla prima pagina di Logo Paperblog