Google ha annunciato che circa 30.000 dei suoi pacchetti software di produzione sono già stati migrati all’architettura Arm, con l’obiettivo di completare la transizione per l’intero ecosistema in modo da eseguire i workload sia sui processori x86, sia sulle CPU Arm proprietarie Axion. Questa mossa non è un semplice esperimento tecnologico, ma una trasformazione strutturale destinata a ridefinire le fondamenta infrastrutturali dei data center Google negli anni a venire.

La migrazione è stata descritta dettagliatamente in un documento tecnico intitolato Instruction Set Migration at Warehouse Scale, insieme a un post ufficiale in cui Google conferma che servizi core come YouTube, Gmail e BigQuery sono già operativi su Arm Axion e architettura x86 in parallelo. Lo scopo? Creare un’infrastruttura eterogenea in grado di massimizzare efficienza energetica, prestazioni per watt e scalabilità globale.

Secondo Parthasarathy Ranganathan, engineering fellow di Google, e Wolff Dobson, developer relations engineer, il progetto è iniziato ipotizzando che la maggior parte del lavoro sarebbe stata dedicata alle differenze architetturali tra x86 e Arm, come la gestione delle istruzioni floating point, la concorrenza od operatori specifici legati all’hardware. Tuttavia, già nelle prime fasi della migrazione, che ha coinvolto servizi fondamentali come F1 (l’infrastruttura dei dati pubblicitari), Spanner e Bigtable, è emerso che i moderni compilatori e tool di analisi hanno già eliminato gran parte delle criticità previste.

In realtà, la sfida più impegnativa non è risultata di natura computazionale, bensì gestionale e strutturale. La maggior parte del tempo degli ingegneri è stata infatti dedicata a quattro attività principali:

  • Correzione di test automatizzati eccessivamente dipendenti dall’architettura x86
  • Aggiornamento dei sistemi di build e rilascio (specialmente per i servizi più vecchi e ad alto traffico)
  • Risoluzione di problematiche legate alle configurazioni in produzione
  • Prevenzione di instabilità nei sistemi critici (in un contesto in cui anche un minimo errore può generare effetti a cascata sulla rete globale di Google, il processo di migrazione richiede un controllo rigoroso e graduale)
Google arm

I risultati di CogniPort

Per affrontare l’enorme mole di codice da convertire (circa 100.000 pacchetti in totale), Google ha sfruttato i propri strumenti di automazione integrandoli con CogniPort, un nuovo agente AI sviluppato internamente. Quest’ultimo è stato progettato per intervenire automaticamente ogni volta che una libreria, un binario o un test falliscono durante il processo di migrazione ad Arm. CogniPort è in grado di analizzare l’errore, generare una patch e proporre il commit di modifica in modalità autonoma.

Secondo Google, il sistema ha avuto successo circa nel 30% dei casi, soprattutto in situazioni legate a test non compatibili, strutture condizionali dipendenti dalla piattaforma e differenze nella rappresentazione dei dati. Sebbene il tasso di successo non sia ancora elevato, la capacità di CogniPort di accelerare le migrazioni su larga scala rappresenta un tassello fondamentale della strategia di Google, che punta a completare il porting dei restanti 70.000 pacchetti nei prossimi anni.

L’obiettivo finale è permettere al sistema di orchestrazione Borg (la piattaforma interna su cui è stato basato Kubernetes) di distribuire i workload sulle CPU più efficienti in base alle specifiche esigenze, senza vincoli architetturali.

La motivazione economica dietro questa migrazione è altrettanto rilevante. Google sostiene infatti che le macchine basate su Axion offrono fino al 65% di migliore rapporto prezzo-prestazioni rispetto alle istanze x86 convenzionali e possono garantire un risparmio energetico fino al 60%. In un periodo in cui l’intelligenza artificiale e i carichi di lavoro data-intensive aumentano in modo esponenziale, ridurre i costi operativi e l’impatto energetico è diventato una priorità assoluta per i grandi provider cloud.

La portata dell’iniziativa suggerisce anche importanti implicazioni per il mercato dei semiconduttori e dei data center. Se Google dovesse effettivamente riuscire a eseguire l’intera infrastruttura interna su Arm, la dipendenza globale dai processori x86 (storicamente dominati da Intel e AMD) potrebbe ridursi in modo drastico, aprendo la strada a una vera competizione su larga scala tra architetture. La diffusione di CPU custom come Axion renderebbe inoltre Google meno vulnerabile alle dinamiche di mercato dei fornitori tradizionali, dandole un maggiore controllo sull’evoluzione dei propri data center.