Ad aprile, nella famiglia della navigazione vocale nasce Giulia: una voce gentile che, in italiano, permette di sperimentare le potenzialità di VoiceXML. La dà alla luce Loquendo, società già leader nel settore della sintesi vocale, che da qualche anno si occupa autorevolmente di navigazione vocale e multimodale partecipando attivamente ai lavori del Voice Browser Working Group del W3C sulla tecnologia VoiceXML.
Ma cos’è VoiceXML?
Immaginiamo di essere alla guida della nostra auto e di voler cercare un ristorante oppure conoscere le previsioni del tempo, o avere le ultime quotazioni dei vostri investimenti interrogando i nostri siti web preferiti, VoiceXML (Voice eXtensible Markup Language o VXML) è una applicazione XML che permette questo tipo di interazione.
L’idea di avere un linguaggio per le transazioni vocali tramite web è venuta ad IBM già nella seconda metà degli anni novanta con SpeechML. Nello stesso periodo Lucent e AT&T avevano sviluppato ciascuna un proprio PML (Phone Markup Language) e si faceva avanti anche Motorola con il suo VoxML. Le varie soluzioni furono poi fuse in VoiceXML che si è imposto prima come standard de facto e poi, sottoposto al W3C, diventato standard ufficiale del markup per la navigazione vocale.
Un documento VXML è qualcosa di molto simile ad una pagina HTML. La differenza è che con VXML i tag non descrivono l’impaginazione di testi, immagini e collegamenti ipertestuali, ma specificano i termini di un vero e proprio dialogo tra il browser e l’utente. Tipicamente l’utente si collega tramite telefono al servizio e naviga i contenuti del sito selezionando con la voce o con la tastiera del telefono i percorsi suggeriti dal browser vocale. Si possono anche interrogare basi di dati o servizi distribuiti per cercare contenuti dinamici.
VoiceXML si colloca come linguaggio di sviluppo per il livello di presentazione di applicazioni web vocali consentendo una grande flessibilità nella gestione dei contenuti e dei collegamenti. Infatti si può semplicemente interfacciare con i classici strumenti dell’attuale scenario tecnologico come MS .NET, PHP o JSP, servendosi delle stesse infrastrutture che usa una comune applicazione web. Questo a differenza delle tecnologie passate dove l’integrazione tra servizi vocali e web è spesso una forzatura.
Una volta preso un minimo di confidenza con il linguaggio, scrivere applicazioni vocali risulta molto semplice e simile a progettare le classiche pagine HTML. Si possono inserire contenuti pre-registrati quando si vogliono inserire contenuti statici oppure ci si affida ad un motore TTS (Text To Speech ovvero sintesi vocale) per l’output di contenuti dinamici sotto forma di testi.
Le lingue supportate sono davvero molte e c’è la possibilità di descrivere dei dizionari fonetici attraverso SSML (Speech Syntesis Markup Language): un linguaggio (sempre applicazione di XML) che consente, tra l’altro, l’associazione tra parole e fonemi.
Un altro linguaggio necessario alla implementazione del dialogo è SRGS (Speech Recognition Grammar System). I documenti scritti in questo linguaggio vengono collegati al documento VXML e permettono al sistema di sapere quali parole potranno essere riconosciute nella transazione. CCXML (Call Control eXtended Markup Language) invece serve a gestire eventi sulle connessioni come trasferimenti di chiamata o semplici conferenze.
Attualmente molte società stanno convertendo i propri servizi vocali a VoiceXML. Ma esistono anche veri e propri servizi di navigazione vocale. Uno per tutti è il servizio di Tiscali mail by phone che permette di ascoltare i messaggi della propria casella di posta dal telefono ma anche di comporre ed inviare nuovi messaggi.
Sulla rete si trovano moltissimi appassionati all’argomento. Un sito che sicuramente vale la pena di visitare è quello del VIUG (VoiceXML Italian Users Group). Non è aggiornatissimo ma è ricco di storia e di tutorial da sperimentare su Cambridge Voice Studio: un programmino scaricabile dal loro sito. Una delle particolarità di Cambridge VS è che la società che lo produceva è fallita, il che stona pensando che sviluppava una tecnologia emergente.
Se si vuole approfondire e cominciare a sperimentare come scrivere delle semplici applicazioni vocali si può usare Loquendo C@fè: un servizio gratuito che Loquendo mette a disposizione per produrre, validare e testare documenti VXML sul loro motore VoxNauta. Un sito ricco di esempi e di tutorial, ma la cosa fondamentale è che mette a disposizione un numero di telefono da chiamare per accedere e vedere, anzi ascoltare la propria applicazione in funzione.
VoiceXML è tuttora ricco di potenziale, basti pensare ad applicazioni rivolte agli ipovedenti o ad altri tipi di disagio, oppure in combinazione con altri tipi di interfacce nella futuribile multimodalità dell’accesso al web. Non sono lontani i tempi in cui consulteremo una cartina elettronica delimitandone aree con un pennino da palmare e richiedendo a voce i servizi che ci interessano. Il web publishing sarà ancora lì: ma che linguaggio parlerà?