Al suo apice nei primi anni 2000, Photobucket era il sito di hosting di immagini più importante al mondo. La spina dorsale mediatica di servizi un tempo molto popolari come Myspace e Friendster, vantava 70 milioni di utenti e rappresentava quasi la metà del mercato fotografico online degli Stati Uniti.

Oggi solo 2 milioni di persone utilizzano ancora Photobucket, secondo il tracker di analisi Similarweb. Ma la rivoluzione dell'AI generativa potrebbe darle nuova vita.

L'amministratore delegato Ted Leonard, che gestisce l'azienda di 40 persone a Edwards, in Colorado, ha dichiarato a Reuters di essere in trattative con diverse aziende tecnologiche per concedere in licenza i 13 miliardi di foto e video di Photobucket, da utilizzare per addestrare modelli di AI generativa in grado di produrre nuovi contenuti in risposta a richieste di testo.

Ha discusso tariffe comprese tra 5 centesimi e 1 dollaro per foto e più di 1 dollaro per video, ha detto, con prezzi che variano ampiamente sia in base all'acquirente che ai tipi di immagini ricercate.

"Abbiamo parlato con aziende che hanno detto: 'Abbiamo bisogno di molto di più', ha aggiunto Leonard, con un acquirente che gli ha detto di volere oltre un miliardo di video, più di quanti ne abbia la sua piattaforma.

"Ci si gratta la testa e ci si chiede: dove lo prendete?".

Photobucket ha rifiutato di identificare i suoi potenziali acquirenti, citando la riservatezza commerciale. Le trattative in corso, che non sono state riportate in precedenza, suggeriscono che l'azienda potrebbe essere seduta su un valore di miliardi di dollari di contenuti e danno un'idea del vivace mercato dei dati che sta nascendo nella corsa al dominio della tecnologia AI generativa.

I giganti del settore tecnologico come Google, Meta e OpenAI, sostenuta da Microsoft, hanno inizialmente usato risme di dati prelevati gratuitamente da Internet per addestrare modelli di AI generativa come ChatGPT, in grado di imitare la creatività umana. Hanno affermato che questo modo di procedere è legale ed etico, anche se devono affrontare cause legali da parte di una serie di detentori di copyright per questa pratica.

Allo stesso tempo, queste aziende tecnologiche stanno anche pagando in modo silenzioso per i contenuti bloccati dietro i paywall e le schermate di login, dando vita a un commercio nascosto di tutto, dai registri delle chat alle foto personali dimenticate da tempo dalle app di social media sbiadite.

"In questo momento c'è una corsa ai detentori di copyright che hanno collezioni private di materiale che non è disponibile per lo scraping", ha detto Edward Klaris dello studio legale Klaris Law, che afferma che sta consigliando i proprietari di contenuti su accordi del valore di decine di milioni di dollari a testa per concedere in licenza archivi di foto, film e libri per l'addestramento dell'AI.

Reuters ha parlato con più di 30 persone a conoscenza degli accordi sui dati dell'IA, tra cui dirigenti attuali ed ex delle aziende coinvolte, avvocati e consulenti, per fornire la prima esplorazione approfondita di questo mercato nascente - dettagliando i tipi di contenuti che vengono acquistati, i prezzi che si concretizzano, oltre alle preoccupazioni emergenti sul rischio che i dati personali entrino nei modelli dell'IA senza che le persone lo sappiano o senza un consenso esplicito.

OpenAI, Google, Meta, Microsoft, Apple e Amazon hanno rifiutato di commentare accordi e discussioni specifiche sui dati per questo articolo, sebbene Microsoft e Google abbiano fatto riferimento a Reuters ai codici di condotta dei fornitori che includono disposizioni sulla privacy dei dati.

Google ha aggiunto che "intraprenderà un'azione immediata, fino alla risoluzione" del suo accordo con un fornitore se scoprisse una violazione.

Molte delle principali società di ricerca di mercato affermano di non aver nemmeno iniziato a stimare le dimensioni dell'opaco mercato dei dati AI, dove le aziende spesso non rivelano gli accordi. I ricercatori che lo fanno, come Business Research Insights, stimano il mercato a circa 2,5 miliardi di dollari oggi e prevedono che potrebbe crescere fino a 30 miliardi di dollari entro un decennio.

CORSA ALL'ORO DEI DATI GENERATIVI

L'accaparramento dei dati arriva mentre i produttori di grandi modelli di AI generativa 'foundation' affrontano una pressione crescente per tenere conto delle enormi quantità di contenuti che alimentano i loro sistemi, un processo noto come 'addestramento' che richiede un'intensa potenza di calcolo e spesso richiede mesi per essere completato.

Le aziende tecnologiche affermano che la tecnologia sarebbe proibitiva dal punto di vista dei costi se non potessero utilizzare vasti archivi di dati gratuiti di pagine web scraped, come quelli forniti dal repository no-profit Common Crawl, che descrivono come "pubblicamente disponibili".

Il loro approccio ha comunque attirato un'ondata di cause legali sul copyright e di critiche da parte delle autorità, spingendo gli editori ad aggiungere codice ai loro siti web per bloccare lo scraping.

In risposta, i creatori di modelli di AI hanno iniziato a coprire i rischi e ad assicurare le catene di fornitura dei dati, sia attraverso accordi con i proprietari dei contenuti, sia attraverso una fiorente industria di broker di dati che è sorta per soddisfare la domanda.

Nei mesi successivi al debutto di ChatGPT alla fine del 2022, ad esempio, aziende come Meta, Google, Amazon e Apple hanno stretto accordi con il fornitore di immagini stock Shutterstock per utilizzare centinaia di milioni di immagini, video e file musicali della sua libreria per l'addestramento, secondo una persona che ha familiarità con gli accordi.

Gli accordi con le aziende Big Tech erano inizialmente compresi tra i 25 e i 50 milioni di dollari ciascuno, anche se la maggior parte sono stati successivamente ampliati, ha dichiarato a Reuters Jarrod Yahes, Chief Financial Officer di Shutterstock. I piccoli player tecnologici hanno seguito l'esempio, stimolando una nuova "raffica di attività" negli ultimi due mesi, ha aggiunto.

Yahes ha rifiutato di commentare i singoli contratti. L'accordo con Apple e le dimensioni degli altri accordi non sono stati resi pubblici in precedenza.

Un concorrente di Shutterstock, Freepik, ha dichiarato a Reuters di aver concluso accordi con due grandi aziende tecnologiche per concedere in licenza la maggior parte del suo archivio di 200 milioni di immagini a 2-4 centesimi per immagine. Ci sono altri cinque accordi simili in cantiere, ha detto il CEO Joaquin Cuenca Abela, rifiutando di identificare gli acquirenti.

OpenAI, un primo cliente di Shutterstock, ha anche firmato accordi di licenza con almeno quattro organizzazioni giornalistiche, tra cui The Associated Press e Axel Springer. Thomson Reuters, proprietaria di Reuters News, ha dichiarato separatamente di aver stretto accordi per la concessione di licenze per contenuti giornalistici, al fine di contribuire all'addestramento di modelli linguistici AI di grandi dimensioni, ma non ha rivelato i dettagli.

CONTENUTI 'DI PROVENIENZA ETICA

Sta emergendo anche un'industria di aziende dedicate ai dati dell'AI, che si assicurano i diritti sui contenuti del mondo reale come podcast, video di breve durata e interazioni con gli assistenti digitali, costruendo al contempo reti di lavoratori a contratto a breve termine per produrre immagini personalizzate e campioni vocali da zero, in modo simile a una gig economy per i dati simile a Uber.

L'azienda Defined.ai, con sede a Seattle, concede in licenza i dati a una serie di aziende tra cui Google, Meta, Apple, Amazon e Microsoft, ha dichiarato a Reuters l'amministratore delegato Daniela Braga.

Le tariffe variano a seconda dell'acquirente e del tipo di contenuto, ma Braga ha detto che le aziende sono generalmente disposte a pagare da 1 a 2 dollari per immagine, da 2 a 4 dollari per video di breve durata e da 100 a 300 dollari per ora di filmati più lunghi. La tariffa di mercato per il testo è di 0,001 dollari per parola, ha aggiunto.

Le immagini di nudità, che richiedono una gestione più delicata, costano da 5 a 7 dollari, ha detto.

Defined.ai divide questi guadagni con i fornitori di contenuti, ha detto Braga. Commercializza i suoi set di dati come "di provenienza etica", in quanto ottiene il consenso delle persone di cui utilizza i dati e toglie le informazioni di identificazione personale, ha aggiunto.

Uno dei fornitori dell'azienda, un imprenditore con sede in Brasile, ha dichiarato di pagare ai proprietari delle foto, dei podcast e dei dati medici da lui reperiti circa il 20-30% dell'importo totale della transazione.

Le immagini più costose nel suo portafoglio sono quelle utilizzate per addestrare i sistemi di intelligenza artificiale che bloccano i contenuti come la violenza grafica vietata dalle aziende tecnologiche, ha detto il fornitore, che ha parlato a condizione che la sua azienda non venisse identificata, a causa della sensibilità commerciale.

Per soddisfare queste richieste, ottiene immagini di scene del crimine, violenza nei conflitti e interventi chirurgici - principalmente da polizia, fotoreporter freelance e studenti di medicina, rispettivamente - spesso in luoghi del Sud America e dell'Africa, dove la distribuzione di immagini grafiche è più comune, ha detto.

Ha detto di aver ricevuto immagini da fotografi freelance a Gaza dall'inizio della guerra in ottobre, oltre ad alcune da Israele all'inizio delle ostilità.

La sua azienda assume infermieri abituati a vedere ferite violente per anonimizzare e annotare le immagini, che sono inquietanti per occhi non esperti, ha aggiunto.

'LO TROVEREI RISCHIOSO'

Mentre la concessione di licenze potrebbe risolvere alcuni problemi legali ed etici, la resurrezione degli archivi di vecchi nomi di Internet come Photobucket come carburante per i più recenti modelli di AI ne solleva altri, in particolare per quanto riguarda la privacy degli utenti, secondo molti degli operatori del settore intervistati.

I sistemi di AI sono stati sorpresi a rigurgitare copie esatte dei loro dati di addestramento, sputando, ad esempio, il watermark di Getty Images, paragrafi testuali di articoli del New York Times e immagini di persone reali. Ciò significa che le foto private o i pensieri intimi di una persona postati decenni fa potrebbero potenzialmente finire nei risultati dell'AI generativa senza preavviso o consenso esplicito.

Il CEO di Photobucket, Leonard, afferma di avere una solida base legale, citando un aggiornamento dei termini di servizio dell'azienda in ottobre, che le garantisce il "diritto illimitato" di vendere qualsiasi contenuto caricato allo scopo di addestrare i sistemi di intelligenza artificiale. Vede la licenza dei dati come un'alternativa alla vendita di annunci pubblicitari.

"Abbiamo bisogno di pagare le nostre bollette e questo potrebbe darci la possibilità di continuare a supportare gli account gratuiti", ha detto.

Braga di Defined.ai ha dichiarato di evitare l'acquisizione di contenuti da aziende "piattaforma" come Photobucket e di preferire l'approvvigionamento di foto dei social media dagli influencer che le creano, i quali, a suo dire, hanno un diritto più chiaro sui diritti di licenza.

"Lo troverei molto rischioso", ha detto Braga a proposito dei contenuti delle piattaforme. "Se c'è un'intelligenza artificiale che genera qualcosa che assomiglia a una foto di qualcuno che non l'ha mai approvata, è un problema".

Photobucket non è l'unica tra le piattaforme ad abbracciare le licenze. Automattic, la società madre di Tumblr, ha dichiarato il mese scorso che sta condividendo i contenuti con "aziende AI selezionate". A febbraio, Reuters ha riferito che Reddit ha stretto un accordo con Google per rendere disponibili i suoi contenuti per l'addestramento dei modelli AI di quest'ultimo.

Prima della sua offerta pubblica iniziale a marzo, Reddit ha rivelato che la sua attività di licenza dei dati è oggetto di un'indagine della Commissione Federale del Commercio degli Stati Uniti e ha riconosciuto che potrebbe incorrere nell'evoluzione delle normative sulla privacy e sulla proprietà intellettuale.

La FTC, che a febbraio ha messo in guardia le aziende dal modificare retroattivamente i termini di servizio per l'utilizzo dell'AI, ha rifiutato di commentare l'indagine su Reddit o di dire se stesse esaminando altri accordi sui dati di formazione. (Relazioni di Katie Paul a New York e di Anna Tong a San Francisco; ulteriori informazioni di Krystal Hu a New York; Redazione di Kenneth Li e Pravin Char)