Cosa c'è di così bello negli "occhiali traduttori" di Google?

La scorsa settimana, nel corso dell’evento Google I/O 2022, Google ha svelato i suoi “occhiali traduttori”, promettendo che un giorno potremo parlare con qualcuno che parla una lingua straniera e vedere la traduzione di quello che dice direttamente sulle lenti di questi occhiali.

Nel video di dimostrazione all’evento, si sono visti sia i sottotitoli che spiegavano nella stessa lingua ciò che un’altra persona stava dicendo (cosa utilissima per chi ha problemi di udito), sia traduzioni da e verso inglese e mandarino o spagnolo, consentendo alle persone che parlano due lingue diverse di portare avanti una conversazione senza problemi di comprensione.

Questi occhiali risolverebbero inoltre un punto dolente che si ha oggi con l’utilizzo di Google Translate; se infatti si utilizza la traduzione audio, questa interviene sulla conversazione in tempo reale. Presentando invece la traduzione visivamente, potremmo seguire la conversazione in modo molto più semplice e naturale.

A differenza dei Google Glass, il prototipo degli “occhiali traduttori” di Google è in realtà aumentata (AR). Lasciate che vi spieghi meglio quello che intendo. La realtà aumentata è tale quando un dispositivo acquisisce dati dal mondo esterno e, in base al riconoscimento del significato di tali dati, fornisce informazioni all’utente.

I Google Glass non erano veri occhiali in realtà aumentata: erano più un display heads-up. L’unica consapevolezza contestuale o ambientale di cui potevano occuparsi era la posizione, in base alla quale potevano fornire indicazioni dettagliate o promemoria. Ma normalmente non potevano raccogliere dati visivi o audio e quindi restituire all’utente le informazioni su ciò che stava vedendo o sentendo.

I nuovi occhiali di Google sono invece in vera realtà aumentata perché prelevano dati audio dall’ambiente e restituiscono all’utente (nella sua lingua preferita) una trascrizione di ciò che viene detto. Chi era presente all’evento di Google e la stampa specializzata hanno riferito che la funzione di traduzione è solo una scelta arbitraria per quanto riguarda l’elaborazione dei dati audio nel cloud, ma in realtà c’è molto di più che gli occhiali potrebbero fare!

Potrebbero facilmente elaborare qualsiasi audio per qualsiasi applicazione e restituire a chi li indossa qualsiasi testo o qualsiasi audio. Dopotutto, gli occhiali inviano nel cloud l’audio che ricevono e restituiscono il testo che il cloud invia. Questo è tutto ciò che fanno: ricevono e visualizzano il testo.

Le applicazioni per l’elaborazione dell’audio e la restituzione di informazioni contestuali utilizzabili o informative sono praticamente illimitate. L’audio, ad esempio, potrebbe essere codificato, come un vecchio modem. Un dispositivo che genera rumore o un’app per smartphone potrebbe inviare segnali acustici e rumori simili a quelli che fa R2-D2 di Star Wars. questi, a loro volta, potrebbero essere elaborati nel cloud come un codice QR audio che, una volta interpretato dai server, potrebbe restituire qualsiasi informazione da visualizzare sugli occhiali. Questo testo potrebbe contenere informazioni su un manufatto specifico in un museo o su un prodotto specifico in un negozio.

Un uso ancora più ovvio degli “occhiali traduttori” di Google sarebbe quello di utilizzarli con Google Assistant. Sarebbe proprio come utilizzare un display intelligente con Google Assistant, come se un dispositivo fornisse dati visivi (oltre alle normali informazioni audio) rispondendo alle richieste fatte all’assistente di Google. Questi dati visivi sarebbero quindi disponibili sui nostri occhiali (e a mani libere) ovunque ci troviamo.

Immaginate poi se gli “occhiali traduttori” fossero abbinati a uno smartphone. Con l’autorizzazione concessa da altri, le trasmissioni Bluetooth dei dati di contatto potrebbero visualizzare (sugli occhiali) con chi stiamo parlando a un evento aziendale.

Perché la stampa tech ha fatto affondare i Google Glass

Chi ha criticato (anche aspramente) i Google Glass, lo ha fatto principalmente per due motivi. Innanzitutto, la fotocamera frontale metteva a disagio le persone. Se parlavate con una persona che indossava i Google Glass, la fotocamera era puntata verso di voi… e non vi metteva certo a vostro agio. Google non ha detto se i suoi nuovi occhiali avranno o meno una fotocamera, ma il prototipo visto al Google I/O non l’aveva.

In secondo luogo, il design fin troppo ingombrante ed “eccessivo” degli occhiali faceva sembrare chi li indossava una specie di cyborg. La combinazione di queste due caratteristiche aveva portato i critici ad affermare che i Google Glass non erano qualcosa di “socialmente accettabile”.

Gli “occhiali traduttori” di Google, invece, non hanno una fotocamera né assomigliano a dei visori da cyborg: assomigliano più o meno a degli occhiali normali. E, per buona pace della privacy, il testo visibile a chi li indossa non è visibile alla persona con cui si sta parlando.

L’unico aspetto ancora “inaccettabile” di questi occhiali è il fatto che Google essenzialmente “registrerebbe” le parole degli altri senza autorizzazione, le caricherebbe sul cloud per la traduzione e presumibilmente conserverebbe quelle registrazioni come fa con altri prodotti basati sulla voce.

Tuttavia, la realtà aumentata e persino i display heads-up rimangono dispositivi affascinanti e secondo noi gli occhiali AR ideali dovrebbero avere le seguenti caratteristiche:

Apparire come occhiali normali
Montare lenti graduate
Non integrare una fotocamera
Elaborare l’audio tramite l’intelligenza artificiale e restituire i dati tramite testo
Offrire funzionalità di assistente, restituendo risultati in modo testuale

A oggi, non esiste un prodotto del genere. Ma Google ha dimostrato di avere la tecnologia per farlo. Sebbene i sottotitoli e la traduzione possano essere la caratteristica più interessante, sono, o dovrebbero essere, solo un cavallo di Troia per molte altre interessanti applicazioni aziendali.

Google non ha annunciato quando, o anche se, gli “occhiali traduttori” diventeranno un prodotto commerciale. Ma se non sarà Google a realizzarli, lo farà qualcun altro e si riveleranno quasi sicuramente un dispositivo killer per gli utenti aziendali. La possibilità per degli occhiali dal look “ordinario” di farci accedere ai risultati visivi dell’interpretazione dell’IA di chi e cosa sentiamo, oltre che ai risultati visivi e audio delle richieste a un’assistente virtuale, sarebbe una piccola (o forse grande) rivoluzione.

Siamo in un periodo nello sviluppo tecnologico in cui le applicazioni AR esistono principalmente come app per smartphone (e servono davvero a poco), con la vera attesa che è invece incentrata su occhiali AR socialmente accettabili per i quali potremmo però dover attendere ancora diversi anni. Nel frattempo, la soluzione è chiara ed è quella che ha mostrato Google alcuni giorni fa: abbiamo bisogno di occhiali AR incentrati sull’audio che catturino i suoni e li restituiscano come testo.

Cosa c’è di così bello negli “occhiali traduttori” di Google?

Redazione DigitalWorld Italia

Perché la stampa tech ha fatto affondare i Google Glass