Secondo una proposta di azione legale collettiva presentata nei giorni scorsi a San Francisco, Nvidia ha utilizzato materiale protetto da copyright per addestrare modelli linguistici di grandi dimensioni nella libreria Megatron per il suo framework di intelligenza artificiale generativa NeMo.

La denuncia contro il colosso tech è stata presentata da tre autori (Abdi Nazemian, Brian Keene, Stewart O’Nan), secondo i quali i libri da loro scritti erano tra il materiale utilizzato per addestrare gli LLM di Megatron. Nvidia non è accusata di aver copiato apertamente il lavoro degli autori, ma di aver utilizzato un set di dati per addestrare i modelli Megatron che era noto per contenere una serie di opere protette da copyright senza licenza.

La causa si riferisce in particolare ai modelli che Nvidia ha rilasciato nel settembre 2022, ovvero NeMo Megatron-GPT 1.3B, NeMo Megatron-GPT 5B, NeMo Megatron-GPT 20B e NeMo Megatron-T5 3B. Questi sono ospitati sul sito web gestito da Hugging Face, insieme a informazioni su ciascun modello, compreso il set di dati di addestramento.

ia generativa

I modelli sono stati addestrati su The Pile, un dataset da 800 GB composto da testi per la modellazione linguistica; una delle sue parti costitutive è una raccolta di libri chiamata Books3, che integra i contenuti di circa 197.000 libri compresi quelli creati dai tre autori. La loro azione legale contro Nvidia punta a un processo con giuria e al risarcimento dei danni per le presunte violazioni dei loro diritti d’autore.

In una dichiarazione a The Register, un portavoce di Nvidia ha affermato: Rispettiamo i diritti di tutti i creatori di contenuti e crediamo di aver creato NeMo nel pieno rispetto delle leggi sul copyright”.

Se le parole tribunale, IA e diritti d’autore non vi suonano del tutto nuove, è perché Nvidia è l’ultima big tech in ordine di tempo a dover affrontare problemi di copyright legati all’intelligenza artificiale. A fine 2023, ad esempio, il New York Times ha avviato una causa contro Microsoft e OpenAI, sostenendo che le due aziende avevano utilizzato gli articoli della testata senza autorizzazione con lo scopo di addestrare GPT e modelli simili. Dal canto suo, OpenAI aveva risposto pochi giorni dopo al New York Times dicendo che “sarebbe impossibile costruire reti neurali di alto livello in grado di soddisfare le esigenze attuali senza utilizzare opere protette da copyright”.