Anthropic sta portando Claude oltre il perimetro tradizionale dell’assistenza conversazionale, introducendo una funzionalità che consente al sistema di interagire direttamente con il computer dell’utente. Claude Code e Claude Cowork sono ora in grado ora in grado di operare sul desktop Mac simulando l’input umano con azioni come muovere il cursore, cliccare, aprire applicazioni, navigare nel browser e gestire file in autonomia.

Questo cambiamento segna un’evoluzione rilevante nel paradigma degli agenti AI. Fino a oggi, l’integrazione con software e servizi avveniva prevalentemente tramite API o connettori dedicati e, in assenza di questi collegamenti, l’AI risultava limitata. Il nuovo approccio ribalta la logica e così, quando manca un’integrazione nativa, Claude utilizza l’interfaccia grafica del sistema operativo come farebbe un utente reale, leggendo lo schermo e interagendo con gli elementi visivi.

Si tratta di una forma di automazione basata su computer vision e modellazione del contesto, dove l’AI interpreta l’ambiente desktop come uno spazio operativo dinamico. Questo consente di superare la frammentazione delle applicazioni, rendendo potenzialmente qualsiasi software controllabile, indipendentemente dal supporto diretto.

L’introduzione di questa funzione si integra con Dispatch, il sistema che permette di assegnare attività a Claude da dispositivi mobili e ritrovarle completate su desktop. La combinazione delle due tecnologie apre a scenari di automazione asincrona, in cui l’utente può delegare operazioni complesse senza essere fisicamente presente davanti al computer. Un esempio tipico riguarda l’esportazione di una presentazione in PDF e il suo invio tramite calendario o email, attività che Claude può eseguire attraversando più applicazioni.

Questa capacità introduce una dimensione operativa che avvicina Claude al concetto di agente autonomo. Tuttavia, il sistema è ancora in una fase iniziale, come sottolineato dalla stessa Anthropic. L’AI può commettere errori, soprattutto in contesti complessi o poco strutturati, e la gestione della sicurezza rimane un tema centrale. L’accesso alle applicazioni avviene secondo un modello basato su autorizzazioni esplicite, con richieste di consenso prima di interagire con nuovi ambienti software.

Il confronto più immediato è con OpenClaw, un agente AI open source che ha guadagnato visibilità per la sua capacità di automatizzare operazioni su diverse piattaforme. OpenClaw adotta un’architettura modulare basata su plugin, che consente di estendere le funzionalità attraverso “skill” dedicate. Questa flessibilità, però, si accompagna a una maggiore complessità di configurazione e a rischi più elevati sul piano della sicurezza, soprattutto per utenti non esperti.

Anthropic adotta un approccio più controllato. L’implementazione di Claude privilegia infatti un ambiente chiuso, con limitazioni precise e un focus sulla protezione dei dati. La scelta di rendere la funzione disponibile inizialmente solo su macOS riflette probabilmente l’intenzione di ridurre la variabilità dell’ambiente operativo e semplificare il controllo delle interazioni.

Questa evoluzione di Anthropic riduce ulteriormente la distanza tra intenzione e azione. L’utente infatti non deve più tradurre un obiettivo in una sequenza di operazioni manuali, ma può delegare direttamente il risultato finale. Questo spostamento ha implicazioni profonde soprattutto in ambito produttivo, dove l’automazione di task ripetitivi può liberare tempo e risorse cognitive.

Resta però una questione di affidabilità. A differenza delle integrazioni API, che operano su strutture dati definite, l’interazione tramite interfaccia grafica introduce variabili difficili da standardizzare tra layout che cambiano, elementi dinamici e notifiche impreviste. L’AI deve quindi interpretare un contesto meno deterministico, con un margine di errore intrinsecamente più elevato.

La disponibilità in modalità research preview per gli abbonati Claude Pro e Max indica comunque che questo sistema è ancora in una fase di validazione, in cui Anthropic deve comprendere come gli utenti interagiscono con un agente capace di agire direttamente sui loro dispositivi.