Come i criminali usano gli LLM per portare attacchi, in uno studio Cisco Talos

L’IA generativa sta rivoluzionando molti aspetti della nostra vita, dalla produttività personale alla ricerca scientifica, passando per la creatività e la comunicazione. Tuttavia, la stessa tecnologia che oggi semplifica le attività quotidiane può diventare un’arma nelle mani sbagliate. I cybercriminali, infatti, stanno iniziando a sfruttare l’IA (e in particolare gli LLM) per attività illegali, rendendo sempre più difficile distinguere tra uso lecito e illecito.

Come sottolinea una recente analisi di Cisco Talos, modelli come quelli alla base di ChatGPT, Claude o altri LLM open source sono ormai in grado di scrivere testi credibili, generare codice complesso, analizzare dati e rispondere a domande tecniche in pochi secondi. In sé, sono strumenti neutri, progettati con sistemi di sicurezza sofisticati per prevenire abusi; meccanismi come l’allineamento, che indirizza i modelli verso risposte eticamente corrette, o i guardrail, che bloccano risposte pericolose o sensibili, sono infatti parte integrante di qualsiasi IA responsabile. Eppure, i criminali informatici stanno imparando a eludere questi filtri in modi sempre più ingegnosi.

Un primo fenomeno preoccupante è la diffusione di modelli non censurati, ovvero versioni di LLM prive di qualsiasi tipo di protezione o filtro etico. Questi strumenti sono facilmente reperibili su piattaforme open source e possono essere scaricati e installati localmente da chiunque disponga di un computer sufficientemente potente. In questo contesto, software come Ollama rendono l’uso di questi modelli estremamente accessibile, permettendo anche a utenti non esperti di ottenere risposte a domande che i sistemi legittimi rifiuterebbero.

Un caso emblematico è WhiteRabbitNeo, un modello apparentemente pensato per test di sicurezza, ma facilmente utilizzabile per scrivere email di phishing, generare codice malevolo o automatizzare attacchi informatici. Altri modelli possono essere modificati direttamente da chi ha le competenze tecniche per alterare i dati di addestramento o rimuovere i guardrail.

IA costruita per delinquere: i modelli “criminali”

Laddove i modelli non censurati non bastano, alcuni gruppi di cybercriminali hanno deciso di creare modelli IA progettati specificamente per scopi illegali. Questi LLM “su misura” sono programmati per svolgere compiti come scrivere malware, trovare vulnerabilità nei sistemi, costruire bot malevoli, generare credenziali false o eludere controlli di sicurezza. Uno dei casi più noti è FraudGPT, un modello venduto nel dark web e pensato per offrire funzionalità espressamente dedicate alla criminalità informatica.

FraudGPT permette, ad esempio, di generare virus e ransomware, scrivere email e landing page per truffe, individuare punti deboli nei siti web, automatizzare campagne di attacco e offuscare codice per sfuggire ai controlli antivirus. La pericolosità di questi strumenti non risiede solo nelle loro capacità tecniche, ma anche nella possibilità di abbassare la barriera d’accesso al crimine informatico. Anche chi non è un esperto può sfruttarli con relativa facilità, aumentando il numero e la varietà degli attacchi.

Il “jailbreak” dei modelli legittimi

Non tutti i criminali si affidano a modelli non censurati o sviluppano IA proprie. Molti infatti preferiscono manipolare i modelli legittimi utilizzati da milioni di utenti nel mondo, sfruttando tecniche di jailbreak. Questa pratica consiste nel formulare domande in modo subdolo, camuffando richieste pericolose come fossero innocue. Se il sistema viene tratto in inganno, può finire per fornire risposte che normalmente verrebbero bloccate.

Il jailbreak è una forma sofisticata di ingegneria sociale, ma applicata all’intelligenza artificiale. I cybercriminali studiano il linguaggio e le risposte dell’IA per trovare brecce nei meccanismi di protezione, testando ogni possibile variazione linguistica finché non ottengono il risultato desiderato.

Le stesse funzioni, obiettivi opposti

Uno studio condotto da Anthropic nel dicembre 2024 ha rivelato che le principali richieste degli utenti a un assistente IA riguardano scrittura di codice, creazione di contenuti e ricerche. Curiosamente, sono esattamente le stesse funzioni che vengono sfruttate da chi utilizza l’IA per scopi criminali. Con la differenza che, nel caso dei cybercriminali, la scrittura di codice serve a creare malware, i contenuti sono truffe e le ricerche riguardano carte di credito rubate o vulnerabilità informatiche. L’IA, in sostanza, non inventa nuovi attacchi, ma potenzia quelli esistenti, rendendoli più rapidi, sofisticati e difficili da contrastare.

Il futuro: più potenza, più pericoli

Secondo Cisco Talos, nei prossimi anni assisteremo a un aumento dell’utilizzo dei modelli linguistici da parte dei criminali. L’IA sarà impiegata per generare automaticamente strumenti di attacco, aggirare i controlli di sicurezza e creare contenuti ingannevoli con un’efficacia mai vista prima.

La sfida per aziende, governi e società tecnologiche sarà duplice: da un lato, sviluppare sistemi sempre più resistenti agli abusi e, dall’altro, educare gli utenti a riconoscere i segnali di un possibile attacco e adottare comportamenti digitali consapevoli. In un mondo dove l’IA può essere sia scudo che arma, la sicurezza non può più essere un optional.

(Immagine in apertura: Shutterstock)