Le architetture IT enterprise generano già miliardi di eventi al giorno. Governare questa mole di dati correlando segnali, prevenendo disservizi e identificando anomalie in tempo reale è la sfida su cui si misura oggi la maturità operativa di un’organizzazione. Con la diffusione degli agenti AI autonomi, quella sfida cambia di natura: non si tratta solo di più eventi da raccogliere, ma di segnali qualitativamente diversi, che i tradizionali strumenti di monitoraggio faticano a interpretare.

A parlarne è Davide delle Cave, Business Line Manager Search & Observability di S2E, system integrator italiano con circa 400 dipendenti e 40 milioni di fatturato, attivo in infrastruttura, digital transformation e security.

Con una clientela concentrata soprattutto nel finance (banche e assicurazioni rappresentano il 70% del portafoglio), non è strano che di recente l’azienda abbia anche aperto una filiale nella capitale europea di quel settore: il Lussemburgo.

Dal monitoraggio all’osservabilità: un cambio di passo

Quali sono quindi i paradigmi operativi che con l’IA, e soprattutto con gli agenti, sono diventati obsoleti?

Davide delle Cave, business line manager Search&Observability di S2E

Davide delle Cave, business line manager Search&Observability di S2E

Nell’ultimo decennio, la complessità delle infrastrutture e dei servizi IT – sempre più distribuite tra infrastrutture ibride e micro servizi – aveva mostrato i limiti dei tradizionali sistemi di monitoraggio, aprendo il campo agli strumenti per la Observability.

“Il monitoring tradizionale intercettava ciò che era accaduto: la CPU è al 95%, un servizio non risponde, una soglia è stata superata… L’observability fa un passo in più e cerca di capire perché è accaduto, correlando log, metriche, tracce ed eventi per offrire una visione integrata e azionabile di sistemi sempre più distribuiti”, spiega delle Cave.

Con gli agenti AI il problema si aggrava. Questi sistemi generano segnali qualitativamente diversi: non più metriche binarie, ma interazioni semantiche con l’infrastruttura. “Se prima il segnale era ‘la CPU è al 95%’ o ‘le transazioni sono a un buon livello’, adesso arrivano domande semantiche aperte che interagiscono con i sistemi. Diventa più complicato capire cosa stia succedendo, e soprattutto risalire al motivo per cui qualcosa non funziona come dovrebbe”.

La risposta di S2E passa per la creazione di un layer semantico sopra ai dati: uno strato di arricchimento dei dati di telemetria che li dota di significato contestuale in modo che siano interpretabili sia dagli operatori, sia dai sistemi di observability stessi e dagli agenti AI. “Si arricchiscono questi dati che inizialmente sono segnali poveri, metriche non particolarmente esplicative, in modo tale che abbiano una semantica, un significato”, dice delle Cave. “Quando poi gli agenti intelligenti basati su LLM interagiscono con questi sistemi, le loro domande diventano interpretabili anche dalla piattaforma di observability.”

Data lineage: tracciare il dato mentre cambia significato

Alla base del semantic layer c’è un lavoro sulla qualità e la tracciabilità del dato. In un ambiente in cui i modelli AI operano su dati aziendali, sapere da dove viene un dato e quali modifiche ha subìto lungo il percorso è un tema di affidabilità delle decisioni prima ancora che di architettura tecnica.

“La prima cosa è tracciare l’origine del dato, cioè quel che viene definito data lineage, mettendo punti di controllo rispetto al viaggio che fa il dato dalla sorgente alla destinazione. Il problema è che se i dati vengono trasformati, arricchiti, cambiano forma nel tempo: bisogna tracciare anche il cambio di significato.” Il meccanismo concreto si fonda sui metadati: “I metadati sono la chiave sia per capire la lineage, sia per aggiungere informazioni”.

Clienti come Cedacri e Hippocrates Holding, insieme a primarie aziende del settore bancario, assicurativo e media, gestiscono con gli strumenti messi in campo da S2E pipeline dati complesse in cui la catena di trasformazione può rendere irriconoscibile il dato originale. Garantirne la tracciabilità semantica è una condizione necessaria affinché i modelli AI producano output affidabili.

Monitorare i modelli AI: costi, performance e drift

L’observability nell’era dell’AI riguarda anche l’erogazione dei modelli stessi, la loro efficienza nel tempo e la loro affidabilità. delle Cave individua due dimensioni critiche. La prima è economica: “Le GPU sono costose e i costi devono essere mantenuti sotto controllo. Uno dei parametri chiave sono i token utilizzati”. La seconda riguarda le performance nel tempo: “Quando un modello viene addestrato su un certo set di dati, le condizioni esterne possono cambiare e non è detto che le risposte rimangano sempre efficienti o affidabili”.

Questo fenomeno, chiamato model drift, si manifesta quando il contesto esterno evolve rispetto a quello descritto dai dati di addestramento: le risposte peggiorano e il modello consuma più risorse perché lavora su domande per cui non è ottimizzato. Monitorare entrambe le dimensioni, funzionale e infrastrutturale, è il nuovo perimetro dell’AI observability. Anche se, nota delle Cave, “i modelli sono diventati così bravi che il tuning lo facciamo sempre meno: anche con pochi sample si riesce ad avere modelli molto consistenti”.

Dalla root cause analysis all’auto-remediation

La root cause analysis (identificare l’origine di un problema tra migliaia di segnali correlati) era tradizionalmente un’attività che richiedeva molta esperienza e molto tempo. Oggi, come sintetizza delle Cave, è sempre più assistita dall’AI: “La root cause analysis diventa sempre più facile e l’operatore diventa sempre più efficiente”.

Per le remediation semplici si può anche arrivare all’automazione completa. delle Cave descrive un caso concreto: “Ho capito che l’ordine non arriva perché il sistema di pagamento non funziona. Prima l’operatore scriveva una mail al fornitore. Adesso quella mail può essere scritta automaticamente.” E il ciclo si chiude: “Dall’altra parte ci sarà un agente che riceve il messaggio e dice: ‘Va bene, riavvio il server’ e se non funziona chiamo l’operatore” Un modello operativo in cui la macchina gestisce i casi ordinari e l’uomo interviene su quelli eccezionali.

Quando un dato di qualità abbastanza buona è buono abbastanza

Una delle riflessioni più interessanti emerse nel confronto con delle Cave riguarda il cambiamento di approccio alla qualità del dato. Il paradigma tradizionale prevede un lavoro preliminare sistematico di data quality sull’intera base dati prima di far lavorare qualsiasi sistema AI. Questo approccio, tuttavia, sta mostrando i suoi limiti in contesti agentici.

“Non è detto che tutti i dati debbano essere di qualità ottimale per ottenere risultati validi”, osserva delle Cave. “Un approccio alternativo è far lavorare l’agente e verificare la coerenza delle risposte, magari con un secondo agente che fa da controllore. Se i dati sono sufficientemente a produrre un risultato adeguato, ho finito. Intervengo sulla qualità solo dove serve, non su miliardi di record indiscriminatamente”.

Una logica più lean e orientata allo scopo, che però solleva interrogativi legittimi: “Paradossalmente, avvicinandosi alla sensibilità umana, ciò che prima richiedeva molta precisione adesso ne richiede un po’ meno”. In pratica, stiamo imparando a relazionarci con un computer accettando che sia fallibile, come un essere umano.

In contesti regolati, come i settori bancario, assicurativo e sanitario, la soglia di accettabilità dell’incertezza resta però una variabile critica da definire con molta attenzione.

Il posizionamento di S2E e il mercato che cambia

S2E presidia il mercato dell’observability da oltre un decennio, con un team dedicato di 15-20 persone e circa 35 progetti alle spalle su clienti come Cedacri, Hippocrates Holding e primarie aziende bancarie, assicurative e media italiane. Le attività spaziano dal consolidamento degli strumenti di monitoraggio esistenti all’integrazione dei layer specifici per AI e GPU, fino all’advisory strategica.

Sul fronte del mercato, delle Cave osserva: “Gli investitori incominciano a intravedere che i grandi vendor esistenti hanno iniettato AI nei propri tool, ma non sono davvero tool AI-native. Arriveranno strumenti completamente diversi, con le startup, con i nuovi investimenti, che cambieranno la definizione di cosa sia un software”. Una lettura strutturale del ciclo tecnologico: gli strumenti costruiti in un’era pre-AI vengono progressivamente ripensati, mentre l’expertise di chi sa integrarli e contestualizzarli mantiene un valore difficilmente replicabile in automatico.

L’observability come leva strategica di business

Al di là delle specificità tecniche, delle Cave chiude con una considerazione che suona quasi ovvia ma che nella pratica aziendale fatica ancora ad affermarsi pienamente: “Quasi tutti hanno capito che se l’IT funziona bene, funziona bene il business. Chi vuole che il proprio business abbia le basi per funzionare bene deve fare in modo che anche i sistemi IT funzionino bene. Semplicemente questo”.

In questa prospettiva, l’observability non è uno strumento di IT operations: è un asset strategico. Un sistema che monitora in tempo reale la correlazione tra parametri tecnici (latenza, errori, utilizzo delle risorse…)  e indicatori di business (conversioni, continuità di servizio, esperienza del cliente…) traduce la complessità tecnica in informazione utile alle decisioni.

Con l’AI che entra sempre più profondamente nei processi operativi, questa capacità di osservazione diventa ancora più critica. Non per controllare la tecnologia in sé, ma per garantire che la tecnologia continui a servire gli obiettivi per cui è stata adottata.