Si chiama Gemini ed è il nuovo modello linguistico di grandi dimensioni (LLM) per l’IA generativa presentato ieri da Google. Disponibile in tre dimensioni per poter essere utilizzato in qualsiasi ambito (dai data center fino ai dispositivi mobili), Gemini è il modello IA più potente realizzato fin qui da Google, che lo ha sviluppato negli ultimi otto mesi e lo ha fatto testare in anteprima a un ristretto gruppo di aziende.

Secondo Google, la potenza di Gemini lo rende tale da sfidare tutti gli altri LLM più avanzati di oggi come Llama 2 di Meta e GPT-4 di OpenAI. “Questa nuova era di modelli rappresenta uno dei più grandi sforzi scientifici e ingegneristici che abbiamo intrapreso come azienda”, ha scritto il CEO di Google Sundar Pichai. Gemini è in grado di gestire diversi metodi di input, come foto, audio e video, o ciò che è noto come modello multimodale. L’approccio standard alla creazione di modelli multimodali prevedeva l’addestramento di componenti separati per le diverse modalità e poi la loro unione.

“Questi modelli a volte sono bravi a svolgere determinati compiti, come la descrizione delle immagini, ma hanno difficoltà con ragionamenti più concettuali e complessi”, continua Pichai. “Abbiamo sviluppato Gemini per essere nativamente multimodale e preaddestrato fin dall’inizio su diverse modalità. Poi l’abbiamo perfezionato con ulteriori dati multimodali per migliorare ulteriormente la sua efficacia”.

Le tre diverse dimensioni prima accennate sono:

  • Gemini Ultra – il modello più grande e performante per attività molto complesse.
  • Gemini Pro – il modello più adatto per la scalabilità di un’ampia gamma di attività
  • Gemini Nano – una versione creata per le attività in locale sui dispositivi

google gemini

Gemini è già disponibile in alcuni dei prodotti di Google. Ad esempio, il chatbot Bard utilizza una versione di Gemini Pro per ragionamenti, pianificazione e comprensione più avanzati. Inoltre, il recente Pixel 8 Pro è il primo smartphone progettato per Gemini Nano, che viene utilizzato per funzioni come Summarize in Recorder e Smart Reply in Gboard.

“Stiamo già iniziando a sperimentare Gemini anche nella Ricerca, dove rende più veloce la nostra Search Generative Experience (SGE), ha dichiarato Google. “All’inizio del prossimo anno, porteremo Gemini Ultra in una nuova esperienza Bard Advanced. Inoltre, nei prossimi mesi, Gemini sarà alla base di altri nostri prodotti e servizi come Ads, Chrome e Duet AI”.

Gli sviluppatori Android che vogliono creare applicazioni basate su Gemini per un dispositivo mobile possono registrarsi per un’anteprima di Gemini Nano tramite Android AICore. Inoltre, a partire dal 13 dicembre gli sviluppatori e i clienti aziendali potranno accedere a Gemini Pro tramite l’API Gemini in Vertex AI o Google AI Studio. Dopo aver apportato ulteriori perfezionamenti, tra cui controlli approfonditi sulla fiducia e sulla sicurezza, Google ha dichiarato che Gemini Ultra sarà disponibile prima per gruppi selezionati e poi per gli sviluppatori e i clienti aziendali all’inizio del 2024.

Le novità di Google in ambito IA non si sono però fermate a Gemini. È stato infatti presentato anche il nuovo chip ASIC Cloud TPU v5p per gestire le massicce richieste di elaborazione dell’intelligenza artificiale. Cloud TPU v5p è in grado di addestrare gli LLM 2,8 volte più velocemente rispetto alla versione precedente TPU v4, anche se rispetto a questa ha un prezzo tre volte e mezzo superiore.

Google ha infine annunciato AI Hypercomputer, un’architettura di supercomputer che utilizza un sistema integrato di hardware ottimizzato per le prestazioni, software aperto, framework di machine learning e modelli di consumo flessibili. Secondo Google, i clienti possono utilizzare AI Hypercomputer per aumentare l’efficienza e la produttività nell’ambito dell’addestramento, della messa a punto e del servizio dell’intelligenza artificiale.