Molteplici aziende di intelligenza artificiale stanno aggirando uno standard web comune utilizzato dagli editori per bloccare lo scraping dei loro contenuti da utilizzare nei sistemi di intelligenza artificiale generativa, ha dichiarato agli editori la startup di licenze di contenuti TollBit.

Una lettera agli editori visionata da Reuters venerdì, che non fa i nomi delle aziende di AI o degli editori interessati, arriva nel contesto di una disputa pubblica tra la startup di ricerca AI Perplexity e l'editore di media Forbes, che coinvolge lo stesso standard web, e di un dibattito più ampio tra aziende di tecnologia e media sul valore dei contenuti nell'era dell'AI generativa. L'editore di media economici ha accusato pubblicamente Perplexity di aver plagiato le sue storie investigative nei riassunti generati dall'AI, senza citare Forbes o chiedere il suo permesso.

Un'inchiesta di Wired pubblicata questa settimana ha scoperto che Perplexity ha probabilmente aggirato i tentativi di bloccare il suo web crawler tramite il Robots Exclusion Protocol, o "robots.txt", uno standard ampiamente accettato per determinare quali parti di un sito possono essere carrellate.

Perplexity ha rifiutato una richiesta di commento sulla controversia da parte di Reuters.

TollBit, una startup in fase iniziale, si sta posizionando come intermediario tra le aziende di AI affamate di contenuti e gli editori disposti a concludere accordi di licenza con loro.

L'azienda traccia il traffico di AI verso i siti web degli editori e utilizza le analisi per aiutare entrambe le parti a trovare un accordo sulle tariffe da pagare per l'utilizzo di diversi tipi di contenuti.

Ad esempio, gli editori possono scegliere di fissare tariffe più alte per "contenuti premium, come le ultime notizie o approfondimenti esclusivi", afferma l'azienda sul suo sito web.

Afferma di avere 50 siti web attivi a maggio, anche se non ne ha fatto il nome.

Secondo la lettera di TollBit, Perplexity non è l'unico trasgressore che sembra ignorare il robots.txt.

TollBit ha affermato che i suoi dati analitici indicano che "numerosi" agenti AI stanno aggirando il protocollo, uno strumento standard utilizzato dagli editori per indicare quali parti del proprio sito possono essere carrellate.

"Ciò significa in termini pratici che gli agenti AI provenienti da più fonti (non solo da un'azienda) stanno scegliendo di aggirare il protocollo robots.txt per recuperare i contenuti dai siti", ha scritto TollBit. "Più registri di editori ingeriamo, più questo schema emerge".

Il protocollo robots.txt è stato creato a metà degli anni '90 per evitare di sovraccaricare i siti web con i web crawler. Sebbene non esista un meccanismo di applicazione legale, storicamente c'è stata una diffusa conformità sul web.

Più recentemente, il robots.txt è diventato uno strumento chiave che gli editori hanno utilizzato per bloccare le aziende tecnologiche dall'ingerire i loro contenuti gratuitamente per utilizzarli nei sistemi di intelligenza artificiale generativa che possono imitare la creatività umana e riassumere istantaneamente gli articoli.

Le aziende di AI utilizzano i contenuti sia per addestrare i loro algoritmi che per generare sintesi di informazioni in tempo reale.

Alcuni editori, tra cui il New York Times, hanno citato in giudizio le aziende di AI per violazione del copyright in relazione a questi utilizzi. Altri stanno firmando accordi di licenza con le aziende di AI aperte a pagare per i contenuti, anche se le parti sono spesso in disaccordo sul valore dei materiali. Molti sviluppatori di IA sostengono di non aver violato alcuna legge accedendovi gratuitamente.

Thomson Reuters, proprietaria di Reuters News, è tra coloro che hanno stretto accordi per concedere in licenza i contenuti di notizie per l'uso da parte dei modelli di AI.

Gli editori hanno lanciato l'allarme sui sommari delle notizie, in particolare da quando Google ha lanciato un prodotto l'anno scorso che utilizza l'AI per creare sommari in risposta ad alcune query di ricerca.

Se gli editori vogliono evitare che i loro contenuti vengano utilizzati dall'IA di Google per aiutare a generare tali sommari, devono utilizzare lo stesso strumento che impedirebbe anche la loro comparsa nei risultati di ricerca di Google, rendendoli praticamente invisibili sul web. (Servizio di Katie Paul a New York; Editing di Kenneth Li e Jamie Freed)