Negli ultimi mesi diversi clienti di Google, inclusi abbonati al piano AI Ultra da 250 dollari al mese, hanno scoperto con sorpresa la sospensione dei propri account dopo aver utilizzato Antigravity e i servizi Gemini tramite strumenti di terze parti come OpenClaw e OpenCode. La questione, come nel caso di Anthropic riportato ieri, riguarda l’uso intensivo e automatizzato delle API e delle interfacce CLI attraverso wrapper agentici che moltiplicano il volume di chiamate e l’occupazione di risorse computazionali.

Google ha motivato le sospensioni richiamando violazioni dei termini di servizio. Il problema, dal punto di vista dell’azienda, è che quando un tool di terze parti orchestra richieste autonome su larga scala sfruttando modelli Gemini o il backend di Antigravity, il consumo effettivo di token e di potenza di calcolo può divergere radicalmente dai pattern previsti per un utilizzo umano interattivo. I piani in abbonamento, pur costosi, non sono necessariamente dimensionati per workload agentici continui, caratterizzati da loop di pianificazione, retry automatici e chaining di prompt.

Molti sviluppatori colpiti dal ban di Google hanno contestato la definizione di “uso malevolo”. In diversi thread pubblici, sostengono infatti di aver operato entro le quote disponibili, senza superare i limiti espliciti del proprio piano. Se in effetti il contratto non vieta esplicitamente l’integrazione con wrapper esterni, l’utente tende a considerarla lecita. L’azienda, invece, può ritenere che l’architettura del servizio non sia progettata per fungere da proxy ad altri prodotti o per sostenere carichi autonomi persistenti.

La questione è stata commentata anche da Varun Mohan, co-fondatore di Windsurf e oggi ingegnere presso Google DeepMind. Su X ha parlato di un “massiccio aumento di utilizzi malevoli” del backend Antigravity, tale da degradare la qualità del servizio per gli utenti che ne fanno un uso conforme alla destinazione prevista. Secondo Mohan, era necessario intervenire rapidamente per proteggere la stabilità della piattaforma, pur riconoscendo che una parte degli utenti sospesi potrebbe non aver compreso di violare i termini contrattuali.

Un passaggio tecnico centrale riguarda l’uso di Antigravity come proxy generalizzato. Se un gruppo di sviluppatori utilizza un unico backend per orchestrare flussi agentici complessi, la domanda di compute può crescere in modo esponenziale. Questo perché gli agenti moderni non si limitano a generare testo, ma pianificano task, iterano su errori, invocano strumenti esterni e rieseguono prompt con varianti parametriche. Ogni ciclo incrementa quindi il consumo di token e di GPU time, con impatti diretti sui costi operativi del provider.

infrastrutture AI

Crediti: Shutterstock

La dinamica non è isolata e, come già accennato, anche Anthropic ha adottato misure per impedire l’arbitraggio tra abbonamenti consumer e API a prezzo pieno, dopo che alcuni utenti avevano collegato account flat a servizi terzi per ottenere capacità computazionale a costo ridotto. Quando il prezzo per token in un piano subscription risulta inferiore rispetto all’API enterprise, si crea inevitabilmente un incentivo economico a instradare traffico intensivo attraverso il canale più economico.

Nel caso Google, sembra che la combinazione di free tier generosi e quote poco granulari abbia facilitato pattern di consumo non previsti in fase di pricing. Se il modello di business prevede la vendita di token a un prezzo inferiore al costo marginale di calcolo, nella prospettiva di acquisire quota di mercato, l’esplosione di utilizzi agentici può compromettere rapidamente l’equilibrio finanziario. La competizione tra hyperscaler e laboratori di AI ha spinto molti operatori a sovvenzionare l’accesso iniziale ai modelli, confidando in economie di scala future e in una successiva riallocazione dei prezzi.

Dal lato degli sviluppatori, il malcontento ruota attorno alla prevedibilità delle policy. Alcuni ingegneri sostengono che, se l’integrazione con wrapper come OpenClaw non è consentita, il sistema dovrebbe restituire un errore esplicito o limitare tecnicamente le chiamate, anziché sospendere retroattivamente account paganti. In termini di governance della piattaforma, la trasparenza dei limiti operativi è infatti cruciale per mantenere fiducia e fidelizzazione.

Questa tensione evidenzia un problema più ampio nell’economia degli LLM, ovvero la distanza tra utilizzo umano interattivo e utilizzo autonomo orchestrato da agenti software. I modelli linguistici sono stati inizialmente concepiti per sessioni conversazionali, mentre l’emergere di framework agentici li trasforma in componenti di pipeline automatizzate, con carichi assimilabili a microservizi ad alta intensità. Questo mutamento richiede una revisione delle metriche di quota, dei sistemi di rate limiting e delle clausole contrattuali.

In prospettiva, i provider dovranno differenziare in modo più netto i piani destinati a uso umano da quelli pensati per agenti autonomi, con prezzi che riflettano il reale consumo di risorse e SLA coerenti con carichi continuativi. Allo stesso tempo, gli sviluppatori dovranno considerare che l’accesso flat a un modello non equivale a una licenza per orchestrare workload illimitati tramite harness esterni.