Amazon Web Services, Inc. (AWS) e NVIDIA Corporation hanno annunciato una collaborazione in più parti incentrata sulla realizzazione dell'infrastruttura di intelligenza artificiale (AI) più scalabile e on-demand del mondo, ottimizzata per l'addestramento di modelli linguistici di grandi dimensioni (LLM) sempre più complessi e per lo sviluppo di applicazioni di AI generativa. Il lavoro congiunto prevede istanze P5 di Amazon Elastic Compute Cloud (Amazon EC2) di nuova generazione alimentate da GPU NVIDIA H100 Tensor Core e dalla rete e scalabilità di AWS, che offriranno fino a 20 exaFLOPS di prestazioni di calcolo per la creazione e l'addestramento di modelli di apprendimento profondo di grandi dimensioni. Le istanze P5 saranno le prime istanze basate su GPU a sfruttare la rete Elastic Fabric Adapter (EFA) di seconda generazione di AWS, che offre 3.200 Gbps di throughput di rete a bassa latenza ed elevata larghezza di banda, consentendo ai clienti di scalare fino a 20.000 GPU H100 in UltraCluster EC2 per accedere on-demand a prestazioni di classe supercomputer per l'AI.

Nuovi cluster di supercomputing Le nuove istanze P5 si basano su oltre un decennio di collaborazione fra AWS e NVIDIA per la realizzazione dell'infrastruttura AI e HPC e si basano su quattro precedenti collaborazioni attraverso le istanze P2, P3, P3dn e P4d(e). Le istanze P5 sono la quinta generazione di offerte AWS alimentate da GPU NVIDIA e arrivano quasi 13 anni dopo la distribuzione iniziale delle GPU NVIDIA, iniziata con le istanze CG1. Le istanze P5 sono ideali per l'addestramento e l'esecuzione dell'inferenza di LLM e modelli di computer vision sempre più complessi, alla base delle applicazioni di AI generativa più esigenti e ad alta intensità di calcolo, fra cui la risposta alle domande, la generazione di codici, la generazione di video e immagini, il riconoscimento vocale e altro ancora.

Costruite specificamente per le aziende e le startup che vogliono portare sul mercato innovazioni alimentate dall'AI in modo scalabile e sicuro, le istanze P5 sono dotate di otto GPU NVIDIA H100 in grado di offrire 16 petaFLOP di prestazioni in precisione mista, 640 GB di memoria ad alta larghezza di banda e connettività di rete a 3.200 Gbps (8 volte di più rispetto alla generazione precedente) in una singola istanza EC2. Le maggiori prestazioni delle istanze P5 accelerano il time-to-train dei modelli di machine learning (ML) fino a 6 volte (riducendo il tempo di addestramento da giorni a ore), e la memoria GPU aggiuntiva aiuta i clienti ad addestrare modelli più grandi e complessi. Si prevede che le istanze P5 riducano il costo di addestramento dei modelli ML fino al 40% rispetto alla generazione precedente, offrendo ai clienti una maggiore efficienza rispetto alle offerte cloud meno flessibili o ai costosi sistemi on-premise. Le istanze Amazon EC2 P5 sono distribuite in cluster hyperscale chiamati EC2 UltraCluster, che comprendono le prestazioni di calcolo, rete e archiviazione più elevate del cloud.

Ogni UltraCluster EC2 è uno dei supercomputer più potenti al mondo, che consente ai clienti di eseguire i carichi di lavoro più complessi di formazione ML multi-nodo e HPC distribuito. Sono dotati di rete non bloccante su scala petabit, alimentata da AWS EFA, un'interfaccia di rete per le istanze Amazon EC2 che consente ai clienti di eseguire applicazioni che richiedono alti livelli di comunicazioni inter-nodo su scala AWS. L'interfaccia hardware di bypass del sistema operativo (OS) personalizzato di EFA e l'integrazione con NVIDIA GPUDirect RDMA migliorano le prestazioni delle comunicazioni inter-istanza riducendo la latenza e aumentando l'utilizzo della larghezza di banda, il che è fondamentale per scalare l'addestramento dei modelli di apprendimento profondo su centinaia di nodi P5.

Con le istanze P5 e EFA, le applicazioni ML possono utilizzare NVIDIA Collective Communications Library (NCCL) per scalare fino a 20.000 GPU H100. Di conseguenza, i clienti ottengono le prestazioni applicative dei cluster HPC in sede con l'elasticità e la flessibilità on-demand di AWS. Oltre a queste capacità di calcolo all'avanguardia, i clienti possono utilizzare il portafoglio di servizi più ampio e profondo del settore, come Amazon S3 per l'archiviazione di oggetti, Amazon FSx per i file system ad alte prestazioni e Amazon SageMaker per la creazione, l'addestramento e la distribuzione di applicazioni di deep learning.

Le istanze P5 saranno disponibili nelle prossime settimane in anteprima limitata. Con le nuove istanze EC2 P5, clienti come Anthropic, Cohere, Hugging Face, Pinterest e Stability AI potranno costruire e addestrare i modelli ML più grandi su scala. La collaborazione attraverso ulteriori generazioni di istanze EC2 aiuterà le startup, le imprese e i ricercatori a scalare senza problemi per soddisfare le loro esigenze di ML.

Nuovi design di server per un'AI scalabile ed efficiente: prima del rilascio di H100, i team di ingegneri di NVIDIA e AWS con competenze nei settori termico, elettrico e meccanico hanno collaborato alla progettazione di server che sfruttano le GPU per offrire AI su scala, con un'attenzione particolare all'efficienza energetica dell'infrastruttura AWS. Le GPU sono in genere 20 volte più efficienti dal punto di vista energetico rispetto alle CPU per alcuni carichi di lavoro AI, con l'H100 fino a 300 volte più efficiente per gli LLM rispetto alle CPU. Il lavoro congiunto ha incluso lo sviluppo di un design termico del sistema, la sicurezza integrata e la gestione del sistema, la sicurezza con l'hypervisor accelerato dall'hardware AWS Nitro e le ottimizzazioni di NVIDIA GPUDirecto per il tessuto di rete AWS custom-EFA.

Sulla base del lavoro di AWS e NVIDIA incentrato sull'ottimizzazione dei server, le aziende hanno iniziato a collaborare sui progetti di server futuri per aumentare l'efficienza di scalabilità con i progetti di sistemi di generazione successiva, le tecnologie di raffreddamento e la scalabilità della rete.