NVIDIA lancia piattaforme di inferenza per modelli linguistici di grandi dimensioni e carichi di lavoro di AI generativa
21 marzo 2023 alle 16:52
Condividi
NVIDIA ha lanciato quattro piattaforme di inferenza ottimizzate per una serie diversificata di applicazioni di AI generativa in rapida ascesa, aiutando gli sviluppatori a realizzare rapidamente applicazioni specializzate e basate sull'AI in grado di offrire nuovi servizi e intuizioni. Le piattaforme combinano l'intero stack di software di inferenza di NVIDIA con i più recenti processori NVIDIA Ada, Hopper e Grace Hopper, fra cui la GPU NVIDIA L4 Tensor Core e la GPU NVIDIA H100 NVL. Ogni piattaforma è ottimizzata per i carichi di lavoro più richiesti, fra cui i video di AI, la generazione di immagini, l'implementazione di modelli linguistici di grandi dimensioni e l'inferenza di raccomandazione. Accelerazione della serie diversificata di carichi di lavoro di inferenza dell'AI generativa Ciascuna delle piattaforme contiene una GPU NVIDIA ottimizzata per specifici carichi di lavoro di inferenza dell'AI generativa, nonché un software specializzato: NVIDIA L4 for AI Video è in grado di offrire prestazioni video AI 120 volte superiori rispetto alle CPU, combinate con un'efficienza energetica migliore del 99%. Essendo una GPU universale per quasi tutti i carichi di lavoro, offre capacità migliorate di decodifica e transcodifica video, streaming video, realtà aumentata, video AI generativo e altro ancora. NVIDIA L40 for Image Generation è ottimizzata per la grafica e la generazione di immagini 2D, video e 3D abilitate dall'AI. La piattaforma L40 funge da motore di NVIDIA Omniverseo, una piattaforma per la costruzione e la gestione di applicazioni metaverse nel data center, offrendo prestazioni di inferenza 7 volte superiori per la Diffusione Stabile e prestazioni di Omniverse 12 volte superiori alla generazione precedente. NVIDIA H100 NVL for Large Language Model Deployment è ideale per la distribuzione di LLM massicci come ChatGPT su scala. Il nuovo H100 NVL con 94 GB di memoria e l'accelerazione Transformer Engine offre prestazioni di inferenza fino a 12 volte superiori a GPT-3 rispetto alla generazione precedente A100 su scala data center. NVIDIA Grace Hopper for Recommendation Models è ideale per i modelli di raccomandazione a grafo, i database vettoriali e le reti neurali a grafo. Grazie alla connessione NVLink®-C2C da 900 GB/s fra CPU e GPU, Grace Hopper è in grado di offrire trasferimenti di dati e query 7 volte più veloci rispetto a PCIe Gen 5. Il livello software delle piattaforme comprende la suite di software NVIDIA AI Enterprise, che include NVIDIA TensorRTo, un kit di sviluppo software per l'inferenza di apprendimento profondo ad alte prestazioni, e NVIDIA Triton Inference Servero, un software di inferenza open-source che aiuta a standardizzare la distribuzione dei modelli.
NVIDIA Corporation è leader mondiale nella progettazione, nello sviluppo e nella commercializzazione di processori grafici programmabili. Il gruppo sviluppa anche software associati. Le vendite nette sono suddivise per famiglia di prodotti come segue: - soluzioni di elaborazione e di rete (55,9%): piattaforme e infrastrutture di data center, soluzioni di interconnessione Ethernet, soluzioni di elaborazione ad alte prestazioni, piattaforme e soluzioni per veicoli autonomi e intelligenti, soluzioni per infrastrutture di intelligenza artificiale aziendali, processori per il mining di criptovalute, schede di computer embedded per la robotica, l'insegnamento, l'apprendimento e lo sviluppo dell'intelligenza artificiale, ecc; - processori grafici (44,1%): per PC, console di gioco, piattaforme di streaming di videogiochi, workstation, ecc. (marchi GeForce, NVIDIA RTX, Quadro, ecc.). Il gruppo offre anche computer portatili, desktop, computer da gioco, periferiche per computer (monitor, mouse, joystick, telecomandi, ecc.), software per l'elaborazione visiva e virtuale, piattaforme per sistemi di infotainment automobilistici e piattaforme di collaborazione cloud. Le vendite nette sono suddivise per settore tra archiviazione dati (55,6%), giochi (33,6%), visualizzazione professionale (5,7%), automotive (3,4%) e altro (1,7%). Le vendite nette sono distribuite geograficamente come segue: Stati Uniti (30,7%), Taiwan (25,9%), Cina (21,5%) e altro (21,9%).