L'azienda di telecomunicazioni Veon, l'operatore di telefonia mobile Beeline Kazakhstan, il Barcelona Supercomputing Center e il gruppo di pressione GSMA hanno dichiarato mercoledì che collaboreranno per colmare il "gap linguistico dell'AI" per le lingue poco rappresentate.

I modelli linguistici di grandi dimensioni che alimentano i 'bot' come chatGPT spesso si basano su vaste quantità di dati online, come libri digitali, siti web, articoli e blog per imparare a generare risposte simili a quelle umane. Ma i dati e le risorse in alcune lingue sono limitati.

"Su quasi 7000 lingue parlate in tutto il mondo, solo sette sono considerate lingue ad alta risorsa nel mondo digitale: Inglese, spagnolo, francese, mandarino, arabo, tedesco e giapponese", hanno affermato i gruppi in una dichiarazione congiunta.

Collaboreranno allo sviluppo di strumenti e documentazione sui modelli linguistici nelle lingue sottorappresentate, comprese quelle parlate nei Paesi in cui Veon opera: Pakistan, Ucraina, Bangladesh, Kazakistan, Uzbekistan e Kirghizistan.

Un'altra lingua è il catalano, che è parlato da circa 10 milioni di persone, si legge nella dichiarazione.

"La mancanza di risorse in altre lingue si traduce in un divario linguistico nell'AI che porta a un'esperienza utente non ottimale nelle applicazioni AI, approfondisce i pregiudizi nei modelli AI e rischia di approfondire il divario digitale nelle tecnologie AI", hanno aggiunto. (Relazione di Olivier Sorgho; Redazione di Alexander Smith)