Snowflake ha annunciato che ospiterà la collezione Llama 3.1 di modelli linguistici multilingue open source (LLM) in Snowflake Cortex AI, affinché le aziende possano facilmente sfruttare e costruire potenti applicazioni AI su scala. Questa offerta include il più grande e potente LLM open source di Meta, Llama 3.1 405B, con Snowflake che sviluppa e rende open source lo stack del sistema di inferenza per consentire l'inferenza in tempo reale e ad alto rendimento e democratizzare ulteriormente le potenti applicazioni di elaborazione e generazione del linguaggio naturale. Il team di ricerca AI di Snowflake, leader del settore, ha ottimizzato Llama 3.1 405B sia per l'inferenza che per la messa a punto, supportando un'enorme finestra di contesto da 128K fin dal primo giorno, e consentendo l'inferenza in tempo reale con una latenza end-to-end fino a 3 volte inferiore e un throughput 1,4 volte superiore rispetto alle soluzioni open source esistenti.
Inoltre, consente la messa a punto del modello massivo utilizzando un solo nodo GPU? eliminando i costi e la complessità per gli sviluppatori e gli utenti, il tutto all'interno di Cortex AI.
Grazie alla collaborazione con Meta, Snowflake offre ai clienti modi facili, efficienti e affidabili per accedere, mettere a punto e distribuire senza problemi i modelli più recenti di Meta nell'AI Data Cloud, con un approccio completo alla fiducia e alla sicurezza integrato a livello fondamentale. Il team di ricerca AI di Snowflake, leader del settore, sblocca l'inferenza e la messa a punto open source più veloce ed efficiente in termini di memoria: Il team di ricerca AI di Snowflake continua a spingere i confini delle innovazioni open source attraverso i suoi contributi regolari alla comunità AI e la trasparenza su come sta costruendo tecnologie LLM all'avanguardia. In concomitanza con il lancio di Llama 3.1 405B, il team di ricerca sull'AI di Snowflake sta aprendo in open source il suo Massive LLM Inference and Fine-Tuning System Optimization Stack in collaborazione con DeepSpeed, Hugging Face, vLLM e la comunità AI più ampia.
Questa svolta stabilisce un nuovo stato dell'arte per i sistemi di inferenza e di messa a punto open source per modelli con centinaia di miliardi di parametri. L'enorme scala dei modelli e i requisiti di memoria pongono sfide significative per gli utenti che mirano a ottenere un'inferenza a bassa latenza per i casi d'uso in tempo reale, un elevato throughput per l'efficacia dei costi e il supporto di un contesto lungo per vari casi d'uso di AI generativa di livello aziendale. I requisiti di memoria per la memorizzazione degli stati del modello e dell'attivazione rendono anche la messa a punto estremamente impegnativa, con i grandi cluster di GPU necessari per adattare gli stati del modello per l'addestramento spesso inaccessibili ai data scientist.
Snowflake Cortex AI rafforza l'impegno a fornire un'AI affidabile e responsabile: la sicurezza dell'AI è della massima importanza per Snowflake e i suoi clienti. Di conseguenza, Snowflake sta rendendo Snowflake Cortex Guard generalmente disponibile per salvaguardare ulteriormente da contenuti dannosi qualsiasi applicazione o asset LLM costruito in Cortex AI? Sia utilizzando gli ultimi modelli di Meta, sia gli LLM disponibili da altri fornitori leader, tra cui AI21 Labs, Google, Mistral AI, Reka e Snowflake stessa.
Cortex Guard sfrutta Llama Guard 2 di Meta, sbloccando ulteriormente l'AI affidabile per le aziende, che possono così assicurarsi che i modelli che utilizzano siano sicuri.