Un recente articolo del Wall Street Journal ha messo in luce come le aziende di IA si stiano scontrando sempre più contro un muro nel raccogliere dati di alta qualità per il training dei loro modelli, mentre qualche giorno dopo il New York Times ha descritto in dettaglio alcuni dei modi in cui questi colossi tech hanno affrontato il problema. Non sorprende che in entrambi i casi si tratti di azioni che hanno a che fare con la nebulosa area grigia della legge sul copyright dell’IA.

Da un lato OpenAI, alla continua ricerca di dati per un training di qualità, avrebbe sviluppato il suo modello di trascrizione audio Whisper per superare il problema, trascrivendo oltre un milione di ore di video di YouTube per addestrare GPT-4. Secondo il New York Times, l’azienda sapeva che si trattava di un’operazione discutibile dal punto di vista legale (il presidente di OpenAI Greg Brockman era personalmente coinvolto nella raccolta dei video utilizzati), ma riteneva che si trattasse di un uso corretto (il “fair use” tanto declamato dalle aziende IA). 

In una email a The Verge, la portavoce di OpenAI, Lindsay Held, ha dichiarato che l’azienda utilizza “numerose fonti, compresi i dati disponibili pubblicamente e le partnership per i dati non pubblici” e che sta cercando di generare i propri dati sintetici.

L’articolo del NY Times sostiene che OpenAI ha esaurito le scorte di dati utili nel 2021 e ha deciso di trascrivere video di YouTube, podcast e audiolibri dopo aver esaurito le altre risorse. A quel punto, aveva addestrato i suoi modelli su dati che includevano codice informatico da Github, database di mosse di scacchi e contenuti scolastici da Quizlet.

training dati

Matt Bryant, portavoce di Google, ha dichiarato a The Verge che l’azienda ha “visto rapporti non confermati” sull’attività di OpenAI, aggiungendo che “sia i nostri file robots.txt, sia i Termini di servizio vietano lo scraping o il download non autorizzato di contenuti di YouTube. Neal Mohan, CEO di YouTube, ha detto cose simili sulla possibilità che OpenAI abbia usato YouTube per addestrare il suo modello di generazione di video Sora. Bryant ha dichiarato che Google adotta “misure tecniche e legali” per impedire questo tipo di utilizzo non autorizzato “quando abbiamo una chiara base legale o tecnica per farlo”.

Anche Meta si è scontrata con i limiti della disponibilità di dati di addestramento e, nelle registrazioni che il Times ha ascoltato, il suo team IA ha discusso l’uso non autorizzato di opere protette da copyright mentre lavorava per mettersi al passo con OpenAI. L’azienda, dopo aver usato “quasi tutti i libri, i saggi, le poesie e gli articoli di cronaca in lingua inglese disponibili su Internet”, pare abbia preso in considerazione l’idea di adottare misure come il pagamento di licenze per i libri o addirittura l’acquisto di una grande casa editrice. In questa corsa “disperata” all’addestramento dei loro LLM, i big dell’IA (stando all’articolo del Wall Street Journal) potrebbero esaurire i nuovi contenuti entro il 2028. 

Le possibili soluzioni a questo problema includono l’addestramento dei modelli su dati “sintetici” creati dai loro stessi modelli o il cosiddetto “apprendimento curriculare”, che prevede il training dei modelli IA con dati di alta qualità in modo ordinato, nella speranza che possano utilizzare “connessioni più intelligenti tra i concetti” utilizzando molte meno informazioni, anche se al momento nessuno dei due approcci è stato messo in pratica. L’altra opzione delle aziende IA è utilizzare qualsiasi cosa riescano a trovare indipendentemente dal fatto che abbiano o meno l’autorizzazione, anche se vedendo le diverse cause legali apertesi nell’ultimo anno, questa strada non sembra particolarmente sostenibile sulla lunga distanza.