Appen Limited ha annunciato il lancio di due nuovi prodotti che consentiranno ai clienti di lanciare modelli linguistici di grandi dimensioni (LLM) ad alte prestazioni, le cui risposte sono utili, innocue e oneste per ridurre i pregiudizi e la tossicità. Queste soluzioni sono: AI Chat Feedback ? consente agli esperti di dominio di valutare una conversazione dal vivo a più turni, permettendo loro di rivedere, valutare e riscrivere ogni risposta.

Benchmarking ? una soluzione progettata per aiutare i clienti a valutare le prestazioni del modello attraverso varie dimensioni, come l'accuratezza del modello, la tossicità, ecc. L'ascesa dei chatbot e degli assistenti basati su LLM ha accelerato la richiesta di un'IA conversazionale più sofisticata, in grado di supportare più compiti.

È importante testare la comprensione contestuale e la coerenza di un LLM in conversazioni complesse che si estendono su più turni o dialoghi, rispecchiando le applicazioni del mondo reale. Questo aiuterà a identificare i punti di forza e di debolezza nella gestione delle interazioni estese, migliorando in ultima analisi la qualità delle esperienze degli utenti e l'utilità pratica del modello. AI Chat Feedback di Appen gestisce il flusso di dati end-to-end attraverso molteplici cicli di valutazione e fornisce ai clienti i dati necessari per aiutare a migliorare i modelli.

Lo strumento Benchmarking di Appen risolve un punto di inflessione che le aziende devono affrontare quando sono sotto pressione per entrare rapidamente nel mercato dell'AI: come determinare il giusto LLM da scegliere per una specifica applicazione aziendale. La selezione del modello ha implicazioni strategiche per molte dimensioni di un'applicazione, tra cui l'esperienza dell'utente, la facilità di manutenzione e la redditività. Con la soluzione Benchmarking, i clienti possono valutare le prestazioni di vari modelli lungo le dimensioni comunemente utilizzate o completamente personalizzate.

In combinazione con una folla curata di specialisti di formazione AI di Appen, lo strumento valuta le prestazioni in base a dimensioni demografiche di interesse come il sesso, l'etnia e la lingua. Un cruscotto configurabile consente un confronto efficiente di più modelli su varie dimensioni di interesse. È stato dimostrato che il feedback umano è fondamentale per le prestazioni dei modelli LLM.

La tecnologia di classe mondiale di Appen è rafforzata dalla sua folla globale di oltre 1 milione di specialisti di formazione AI che valutano i set di dati per verificarne l'accuratezza e la parzialità. Lo strumento AI Chat Feedback collega direttamente un output LLM con gli specialisti, in modo che possa imparare da dati di chat diversi e naturali. Appen ha sfruttato i suoi oltre vent'anni di esperienza con piattaforme di annotazione intuitive ed efficienti per progettare un'interfaccia di chat che dimostra familiarità e facilità.

Gli specialisti chattano in diretta con un modello, sia esso del cliente o di terzi, e valutano, segnalano e forniscono un contesto per la loro valutazione. Questo servizio in guanti bianchi si estende a uno staff dedicato al progetto, che analizza meticolosamente ogni lotto di dati, scoprendo i casi limite e ottimizzando la qualità dei dati.