Una dozzina di scienziati, ricercatori e investitori di AI hanno dichiarato a Reuters di ritenere che queste tecniche, che sono alla base del modello o1 recentemente rilasciato da OpenAI, potrebbero rimodellare la corsa agli armamenti dell'AI e avere implicazioni per i tipi di risorse di cui le aziende di AI hanno una domanda insaziabile, dall'energia ai tipi di chip.
OpenAI ha rifiutato di commentare per questa storia. Dopo il rilascio del chatbot virale ChatGPT due anni fa, le aziende tecnologiche, le cui valutazioni hanno beneficiato molto del boom dell'AI, hanno sostenuto pubblicamente che lo 'scaling up' dei modelli attuali attraverso l'aggiunta di più dati e potenza di calcolo porterà costantemente a modelli di AI migliori.
Ma ora, alcuni dei più importanti scienziati di AI stanno parlando dei limiti di questa filosofia "più grande è meglio".
Ilya Sutskever, cofondatore dei laboratori di AI Safe Superintelligence (SSI) e OpenAI, ha dichiarato di recente a Reuters che i risultati ottenuti con l'aumento del pre-training - la fase di addestramento di un modello di AI che utilizza una grande quantità di dati non etichettati per comprendere i modelli e le strutture linguistiche - hanno raggiunto un livello minimo.
Sutskever è ampiamente accreditato come uno dei primi sostenitori del raggiungimento di enormi balzi nel progresso dell'AI generativa attraverso l'uso di più dati e potenza di calcolo nel pre-training, che alla fine ha creato ChatGPT. Sutskever ha lasciato OpenAI all'inizio di quest'anno per fondare SSI.
"Gli anni 2010 sono stati l'era della scalabilità, ora siamo di nuovo nell'era della meraviglia e della scoperta. Tutti sono alla ricerca della prossima cosa", ha detto Sutskever. "Scalare la cosa giusta è importante ora più che mai".
Sutskever ha rifiutato di condividere ulteriori dettagli sul modo in cui il suo team sta affrontando il problema, oltre a dire che SSI sta lavorando su un approccio alternativo per scalare la pre-formazione.
Dietro le quinte, i ricercatori dei principali laboratori di AI si sono imbattuti in ritardi e risultati deludenti nella corsa al rilascio di un modello linguistico di grandi dimensioni che superi il modello GPT-4 di OpenAI, che ha quasi due anni, secondo tre fonti che hanno familiarità con questioni private.
I cosiddetti 'training run' per i modelli di grandi dimensioni possono costare decine di milioni di dollari, grazie all'esecuzione simultanea di centinaia di chip. È più probabile che si verifichino guasti indotti dall'hardware, data la complessità del sistema; i ricercatori potrebbero non conoscere le prestazioni finali dei modelli fino alla fine della corsa, che può richiedere mesi.
Un altro problema è che i modelli linguistici di grandi dimensioni assorbono enormi quantità di dati, e i modelli AI hanno esaurito tutti i dati facilmente accessibili al mondo. Anche la carenza di energia ha ostacolato i cicli di formazione, poiché il processo richiede grandi quantità di energia.
Per superare queste sfide, i ricercatori stanno esplorando il "test-time compute", una tecnica che migliora i modelli AI esistenti durante la cosiddetta fase di "inferenza", ovvero quando il modello viene utilizzato. Ad esempio, invece di scegliere immediatamente una singola risposta, un modello potrebbe generare e valutare più possibilità in tempo reale, scegliendo alla fine il percorso migliore da seguire.
Questo metodo consente ai modelli di dedicare una maggiore potenza di elaborazione a compiti impegnativi come i problemi di matematica o di codifica o le operazioni complesse che richiedono un ragionamento e un processo decisionale di tipo umano.
"Si è scoperto che far ragionare un bot per soli 20 secondi in una mano di poker ha ottenuto lo stesso incremento di prestazioni che scalare il modello di 100.000 volte e addestrarlo per 100.000 volte in più", ha detto Noam Brown, un ricercatore di OpenAI che ha lavorato su o1, alla conferenza TED AI di San Francisco il mese scorso.
OpenAI ha adottato questa tecnica nel suo modello appena rilasciato, noto come "o1", precedentemente conosciuto come Q* e Strawberry, di cui Reuters ha riferito per la prima volta a luglio. Il modello O1 è in grado di "pensare" attraverso i problemi in un modo multi-fase, simile al ragionamento umano. Inoltre, utilizza dati e feedback curati da dottori di ricerca ed esperti del settore. La salsa segreta della serie o1 è un'altra serie di addestramenti eseguiti in cima a modelli 'base' come GPT-4, e l'azienda afferma che intende applicare questa tecnica con modelli base più grandi.
Allo stesso tempo, anche i ricercatori di altri laboratori di AI di alto livello, come Anthropic, xAI e Google DeepMind, hanno lavorato per sviluppare le proprie versioni della tecnica, secondo cinque persone che hanno familiarità con gli sforzi.
"Vediamo un sacco di frutti a portata di mano che possiamo cogliere per migliorare questi modelli molto rapidamente", ha detto Kevin Weil, Chief Product Officer di OpenAI, in occasione di una conferenza tecnologica a ottobre. "Quando le persone si metteranno al passo, cercheremo di essere tre passi avanti".
Google e xAI non hanno risposto alle richieste di commento e Anthropic non ha avuto un commento immediato.
Le implicazioni potrebbero alterare il panorama competitivo per l'hardware AI, finora dominato dalla domanda insaziabile di chip AI di Nvidia. Importanti investitori di venture capital, da Sequoia ad Andreessen Horowitz, che hanno versato miliardi per finanziare il costoso sviluppo di modelli di IA presso molteplici laboratori di IA, tra cui OpenAI e xAI, stanno prendendo atto della transizione e valutando l'impatto sulle loro costose scommesse.
"Questo cambiamento ci porterà da un mondo di cluster massicci di pre-addestramento verso le nuvole di inferenza, che sono server distribuiti e basati sul cloud per l'inferenza", ha dichiarato a Reuters Sonya Huang, partner di Sequoia Capital.
La domanda di chip AI di Nvidia, che sono i più all'avanguardia, ha alimentato la sua ascesa fino a diventare l'azienda di maggior valore al mondo, superando Apple in ottobre. A differenza dei chip di addestramento, dove Nvidia domina, il gigante dei chip potrebbe affrontare una maggiore concorrenza nel mercato dell'inferenza.
Alla domanda sul possibile impatto sulla domanda dei suoi prodotti, Nvidia ha sottolineato le recenti presentazioni dell'azienda sull'importanza della tecnica alla base del modello o1. Il suo CEO Jensen Huang ha parlato di un aumento della domanda di utilizzo dei suoi chip per l'inferenza.
"Ora abbiamo scoperto una seconda legge di scala, e questa è la legge di scala in un momento di inferenza... Tutti questi fattori hanno fatto sì che la domanda di Blackwell sia incredibilmente alta", ha detto Huang il mese scorso in occasione di una conferenza in India, riferendosi all'ultimo chip AI dell'azienda.



















