Alexa? Non è un essere vivente, ma è come un’orchestra

Tutto sull’assistente digitale di Amazon, su come viene sviluppato anche nel Centro R&D di Torino e sul perché ora sa raccontare fiabe imitando la voce di una nonna defunta

Di Alessio Jacona*

Alexa è cosciente? Ed è vero che può parlare con la voce dei nostri cari che non ci sono più? La cronaca degli ultimi giorni ha reso plausibili domande sull’assistente digitale di Amazon fino a ieri impensabili: da un lato, il caso dello sviluppatore che ha definito “senziente” un chatbot evoluto a cui lavorava, rilanciando il dibattito su cosa sia davvero l’intelligenza artificiale di cui disponiamo oggi; dall’altro, la presentazione di Rohit Prasad alla conferenza re:MARS di Las Vegas, in cui Alexa è stata vista leggere favole a un bambino imitando la voce della nonna defunta.

 

Per rispondere a queste domande, così come per capire cos’è, come funziona davvero e anche come ha imparato a parlare l’italiano Alexa, c’era solo un modo, andare alla fonte: «Se la domanda è “Alexa è viva?” allora la risposta è “decisamente no”». A parlare è Gianmaria Visconti, Country Manager Alexa per Italia, Spagna e Francia, che poi chiarisce: «L’intelligenza artificiale che sviluppiamo è un insieme di soluzioni pratiche e modulari a problemi complessi, orchestrate in modo da svolgere dei compiti utili. È una tecnologia creata per essere d’aiuto e per semplificare la vita, non un essere vivente».

 

Per quanto invece riguarda la demo (un po’ inquietante) delle fiabe lette da Alexa con la voce della nonna morta, bisogna innanzitutto chiarire che non si tratta di una nuova funzione, ma di una dimostrazione dello stato di avanzamento della tecnologia, con alcune  implicazioni molto interessanti: «La sfida che affrontiamo è come risolvere un numero crescente di problemi con sempre meno intervento umano e utilizzando sempre meno dati - spiega infatti Visconti - Se in passato, anche per la creazione della voce di Alexa italiano, abbiamo dovuto registrare in studio molte ore di parlato, oggi siamo invece in grado di creare delle voci credibili utilizzando come base un minuto o poco più di registrazione». Ed è questo il punto centrale della dimostrazione data a Las Vegas: grazie a questa tecnologia, in futuro lanciare nuove voci e nuove lingue richiederà sempre meno tempo e investimenti, e sarà per esempio possibile creare voci con accenti specifici, per un’interazione ancora più naturale.

 

Alexa è come un’orchestra

Ma cosa c’è davvero dietro l'affabile e solerte personalità di Alexa? Mentre aziende come la DeepMind di Alphabet (l’azienda madre di Google) o OpenAI (co-fondata da Elon Musk e Sam Altman) puntano a realizzare un’intelligenza artificiale generale, cioè simile a quella umana e capace di utilizzare l’esperienza per svolgere più compiti, l’approccio di Amazon è praticamente opposto: «Alexa è un’IA composta da 30 sottosistemi, tanti algoritmi di machine learning che lavorano insieme per risolvere più problemi, ognuno dei quali dà risposte a richieste specifiche - spiega sempre Visconti -  è un approccio pragmatico: prendiamo il tipo di esperienza che vogliamo dare al cliente, la scomponiamo nelle sue parti fondamentali e creiamo un algoritmo di machine learning per rispondere a ciascuna esigenza. Poi gli algoritmi lavorano insieme come un’orchestra, e la musica che suonano è Alexa».

 

Questo approccio è anche la ragione per cui il digital assistant di Amazon è molto adattabile: nel passaggio dalla casa all’automobile, ad esempio, è stato necessario modificare solo l’algoritmo dedicato alla comprensione del linguaggio, in modo che potesse gestire l’ambiente sonoro completamente diverso (e più rumoroso), mentre non c’è stato bisogno di intervenire sugli altri algoritmi. Un notevole risparmio di tempo e lavoro.

 

“Ambient intelligence”

L’obiettivo dichiarato è creare una “ambient intelligence”, cioè l'intelligenza artificiale applicata all’ambient computing per risolvere problemi innanzitutto in maniera reattiva, cioè rispondendo a un semplice comando vocale. E poi in maniera proattiva, cioè utilizzando i dati che l'assistente digitale raccoglie da sensori sparsi nell’ambiente per proporre soluzioni all’utente o svolgere compiti in autonomia. Questo avviene già con le cosiddette “routine”, una serie di azioni preimpostate che Alexa compie quando si dà un determinato comando o se si verificano certe condizioni. E avverrà ancora di più in futuro, con il sistema che analizzerà lo stato dei dispositivi connessi per identificare delle abitudini dell’utente e proporre soluzioni ad hoc.   

 

Alexa è anche italiana

Quando ciò avverrà, il merito sarà anche del lavoro fatto presso il Centro Ricerca e Sviluppo Amazon a Torino, guidato da Daniele Amberti, che al momento conta oltre 50 dipendenti (altri ne verranno assunti a breve) tra Data Scientist, Computational Linguist, Software e Language Engineer. «A Torino lavoriamo alla localizzazione di Alexa in italiano e in spagnolo, ma non solo - spiega Amberti - perché il nostro Centro è uno dei pochi, insieme con quelli in Germania, in India e negli Stati Uniti, che produce innovazioni con una ricaduta sul funzionamento di Alexa a livello globale».

 

Localizzare il prodotto Alexa significa lavorare sulla comprensione del linguaggio (anche utilizzando inflessioni dialettali), costruire una voce che suoni il più naturale possibile e poi, ancora, sviluppare contenuti specifici per contesto italiano, perché «l’Alexa americana può permettersi di ignorare quali siano i sindaci italiani, ma la nostra no - spiega ancora Gianmaria Visconti - e qui è fondamentale il lavoro dei Knowledge Engineer, che devono capire dove reperire le informazioni e quindi come integrarle nei database della conoscenza di Alexa». C’è poi il lavoro sulla personalità, che segue delle linee guida a livello mondiale, ma che in parte viene localizzata nella scelta ad esempio delle battute o delle barzellette con l’obiettivo di definire un personaggio coerente. Infine c’è l’interazione con i terzi, che producono maggior parte dei contenuti utilizzati dagli utenti tramite Alexa, resi disponibili attraverso le skill, ovvero le applicazioni vocali.

 

Il team di Torino si occupa di tutto questo, con focus in particolare sul riconoscimento del linguaggio. «La lingua è imprevedibile ed è uno strumento che non si usa mai in isolamento, ma si appoggia sempre a un contesto che Alexa deve conoscere per capire un comando», spiega Chiara Rubagotti è uno dei Language Engineer che lavora allo sviluppo della NLU (Natural Language Understanding), ovvero la tecnologia che punta sull'elaborazione del linguaggio naturale in intelligenza artificiale per tradurre parole naturali in un formato comprensibile a un computer. «A Torino ci occupiamo anche di sviluppare la lingua spagnola - continua -  che ha più localizzazioni e porta ancora più sfaccettature a seconda che si tratti di un contesto ispanofono in Messico, in Spagna o negli Stati Uniti. Dal punto di vista strettamente linguistico - aggiunge la Rubagotti - dobbiamo preparare una variazione lessicale enorme e risolvere numerose ambiguità, mentre i nostri modelli statistici devono gestire un numero vastissimo di informazioni per agire correttamente quando ricevono richieste in marketplace diversi».

 

Un lavoro enorme, che però viene ripagato dal gradimento degli utenti italiani se è vero che, già a metà 2022, le interazioni registrate ammontano a circa 5 miliardi, cioè più o meno quelle totalizzate in tutto il 2021.

 

*Giornalista, esperto di innovazione e curatore dell’Osservatorio Intelligenza Artificiale

 

RIPRODUZIONE RISERVATA © Copyright ANSA