Reddit fa causa ad Anthropic: ha preso nostri i contenuti senza permesso

Reddit, piattaforma online che conta oltre 100 milioni di utenti attivi giornalieri, ha citato in giudizio Anthropic, accusandola di aver utilizzato senza autorizzazione i contenuti degli utenti per addestrare i propri sistemi di IA.

Secondo la denuncia depositata presso la Superior Court della California a San Francisco, Anthropic avrebbe utilizzato tramite scraping milioni di commenti e discussioni pubblicate su Reddit, aggirando i limiti imposti dalla piattaforma e ignorando le richieste esplicite di non accedere ai dati tramite bot automatizzati. Reddit sostiene che Anthropic abbia effettuato oltre 100.000 accessi ai suoi server dal 2024, nonostante avesse promesso pubblicamente di bloccare i suoi bot e di rispettare le policy della piattaforma.

L’accusa principale riguarda la mancata stipula di un accordo di licenza; mentre infatti Google, OpenAI e altre aziende hanno siglato intese commerciali con Reddit per poter utilizzare i dati pubblici in modo regolamentato, Anthropic avrebbe deliberatamente evitato qualsiasi negoziazione, arricchendosi ingiustamente grazie ai contenuti degli utenti. Reddit sottolinea che questi accordi non solo garantiscono una compensazione economica, ma anche tutele concrete per la privacy e i diritti degli utenti, come la possibilità di cancellare i propri contenuti e la prevenzione dello spam.

Il valore strategico dei dati di Reddit

La posta in gioco è altissima. Reddit rappresenta una miniera d’oro per chi sviluppa IA, visto che i suoi archivi raccolgono vent’anni di discussioni autentiche, domande, risposte, opinioni e consigli su ogni argomento immaginabile. Questo corpus di dati umani è fondamentale per addestrare modelli linguistici avanzati, che hanno bisogno di esempi reali di interazione per migliorare la qualità delle risposte e la comprensione del linguaggio naturale.

Tuttavia, la crescente domanda di dati freschi e di qualità ha portato molte piattaforme a restringere l’accesso e a monetizzare questi asset, anche in vista di quotazioni in borsa o nuove strategie di business. Reddit stessa, diventata pubblica nel 2024, ha incrementato il valore dei propri dati stipulando accordi con i giganti della tecnologia e rafforzando le proprie policy contro lo scraping non autorizzato.

Crediti: Shutterstock

La difesa di Anthropic e il contesto delle cause contro le IA

Anthropic, sostenuta da colossi come Amazon e Alphabet, ha dichiarato di non essere d’accordo con le accuse e di essere pronta a difendersi vigorosamente in tribunale. L’azienda si è sempre presentata come “white knight” dell’IA, attenta all’etica e alla trasparenza, ma questa causa mette in discussione la coerenza tra le dichiarazioni pubbliche e le pratiche effettive.

Non si tratta tra l’altro di un caso isolato, visto che tutta l’industria dell’IA è sotto la lente per pratiche simili. Dalla fine del 2023, numerosi editori, musicisti, autori e piattaforme hanno avviato cause contro OpenAI, Meta e altre aziende, accusandole di aver utilizzato contenuti protetti da copyright o dati personali senza consenso per addestrare i loro modelli. Il caso Reddit-Anthropic si distingue perché non riguarda solo il copyright, ma anche la violazione delle condizioni d’uso, la concorrenza sleale e la tutela della privacy degli utenti.

Implicazioni per il futuro dell’IA e della privacy online

Come è facile capire, la causa sollevata da Reddit pone interrogativi cruciali sul futuro dell’IA generativa e sull’ecosistema digitale. Da un lato, i modelli di IA hanno bisogno di grandi quantità di dati per evolversi e offrire risposte sempre più pertinenti, mentre dall’altro lato cresce la consapevolezza che i dati degli utenti non possono essere considerati una risorsa libera e gratuita, soprattutto quando vengono utilizzati per fini commerciali.

Ben Lee, Chief Legal Officer di Reddit, ha dichiarato che “le aziende di IA non dovrebbero poter sfruttare i contenuti delle persone senza limiti chiari sull’uso di quei dati”. Reddit chiede al tribunale non solo un risarcimento economico, ma anche un’ingiunzione che impedisca ad Anthropic di continuare a utilizzare i dati raccolti senza licenza.

Reddit fa causa ad Anthropic: ha preso nostri i contenuti senza permesso

Francesco Destri

Il valore strategico dei dati di Reddit

La difesa di Anthropic e il contesto delle cause contro le IA

Implicazioni per il futuro dell’IA e della privacy online