ChatGPT e il nuovo modello linguistico multimodale GPT-4 di OpenAI potrebbero incorrere in problemi di plagio e copyright.
In un documento intitolato “Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4“, alcuni ricercatori e accademici dell’Università della California Berkeley, tra cui Kent Chang, Mackenzie Cramer, Sandeep Soni e David Bamman, hanno infatti rivelato che questi modelli AI vengono addestrati su testi tratti da libri protetti da copyright.
Gli studiosi hanno condotto un test “name cloze” per dedurre i libri conosciuti da ChatGPT e GPT-4 utilizzando una query di inferenza in un passaggio di 40-60 token da un libro protetto da copyright, al fine di determinare se il modello sia in grado memorizzato il testo associato.
Questo perché i dati alla base di ChatGPT e GPT-4 sono fondamentalmente inconoscibili al di fuori di OpenAI, hanno dichiarato gli autori nel documento.
“Il nostro lavoro esegue un’inferenza probabilistica per valutare la familiarità di questi modelli con un insieme di libri, ma non è possibile rispondere alla domanda se essi esistano veramente all’interno dei dati di addestramento di queste AI“.
I ricercatori hanno scoperto che i titoli memorizzati dal chatbot sono soprattutto quelli relativi ai libri fantasy e di fantascienza, tutti ovviamente protetti da copyright, come Harry Potter, Nineteen Eighty-Four di Orwell, la trilogia de Il Signore degli Anelli, Hunger Games, Fahrenheit 451, A Game of Thrones e Dune, tra gli altri.
Secondo lo studio, ChatGPT mostra una minore conoscenza delle opere di altri generi, dei testi anglofoni globali, delle opere del Black Book Interactive Project e dei vincitori del premio Black Caucus American Library Association.
I ricercatori chiedono l’uso di dati pubblici per la trasparenza
Gli informatici della Berkeley University non si sono concentrati tanto sulle implicazioni di copyright della memorizzazione dei testi, quanto sulla natura black-box di questi modelli.
A titolo di esempio, OpenAI e altre società di sviluppo dell’intelligenza artificiale non divulgano i dati che utilizzano per addestrare i loro chatbot, il che solleva dubbi sulla validità delle loro analisi testuali.
I ricercatori hanno aggiunto di essere favorevoli all’uso di dati pubblici per l’addestramento, in modo da rendere più trasparente il comportamento delle AI.
Alcuni esperti hanno inoltre avvertito che le implicazioni relative al copyright saranno inevitabili se le IA continueranno a produrre contenuti sostanzialmente simili o identici ai testi protetti dal copyright che hanno elaborato.
In particolare, il professor Tyler Ochoa del Dipartimento di Giurisprudenza dell’Università di Santa Clara prevede che verranno intentate cause contro gli sviluppatori di modelli linguistici di grandi dimensioni, tra cui Google, Microsoft, OpenAI e altri.
Secondo l’esperto di diritto d’autore, le questioni che potrebbero sorgere sono sostanzialmente tre. La prima è se copiare testi o immagini per l’addestramento dei modelli AI sia corretto. La risposta è probabilmente affermativa.
La seconda questione è se il testo generato dall’intelligenza artificiale, sostanzialmente simile o identico a un testo protetto da copyright, costituisca una violazione. Secondo Ochoa, la risposta è quasi certamente sì.
La terza questione è se il testo generato dall’IA che non è una copia di un testo esistente sia protetto da copyright. È probabile che non lo sia, poiché le leggi degli Stati Uniti e di altri Paesi richiedono la creatività umana per la protezione del copyright.
“Finora abbiamo assistito a cause legali relative alla prima e alla terza questione“, ha detto Ochoa. “Finora, le cause relative al primo problema hanno riguardato solo i modelli AI che generano immagini, ma le cause contro i modelli AI che generano testi sono inevitabili“.
Ha poi aggiunto che il documento dei ricercatori di Berkeley dimostra che i contenuti prodotti dai modelli AI potrebbero essere identici a un testo protetto da copyright, il che incoraggerebbe i titolari del diritto d’autore violato a intraprendere azioni legali.
AiDoge (Ai) - L'incredibile generatore di meme AI
- Crea & Condividi Meme AI
- La nuova meme coin del settore delle crypto AI
- In prevendita adesso su aidoge.com
- Token basato sul Credit System
- Fai Staking con i Token $Ai per guadagni quotidiani