La startup, WaveForms AI, è sostenuta da Andreessen Horowitz e valutata 200 milioni di dollari, ha dichiarato a Reuters il CEO Alexis Conneau.
Conneau ha co-creato la capacità di modalità vocale sul modello GPT-4o di OpenAI, che quando è stato rilasciato all'inizio di quest'anno ha mostrato la capacità di rispondere in tempo reale senza ritardi, nonché di gestire le interruzioni - entrambi tratti distintivi di conversazioni realistiche che finora erano sfuggiti agli assistenti vocali AI.
Dopo il lancio, il CEO di OpenAI Sam Altman ha postato la parola "lei" sulla piattaforma di social media X, in quello che sembrava essere un riferimento all'omonimo film del 2013 di Spike Jonze su un uomo che si innamora del suo assistente AI, doppiato da Scarlett Johansson.
Il lancio di GPT-4o da parte di OpenAI è diventato controverso quando la Johansson ha accusato la startup di aver copiato la sua voce nel film. OpenAI ha affermato che la voce non era un'imitazione della Johansson e che l'azienda ha utilizzato un'attrice vocale diversa.
Conneau, insieme alla cofondatrice di WaveForms AI Coralie Lemaitre, ha dichiarato che la startup utilizzerà il finanziamento per addestrare nuovi modelli di AI audio che risolvano il problema di rendere la conversazione vocale con un bot AI indistinguibile da un umano. Ha aggiunto che l'audio è la chiave per far sentire le interazioni AI "profondamente umane".
"L'audio... trasmette emozioni e fornisce risposte emotive agli utenti", ha detto.
Conneau ha detto che l'azienda prevede di costruire un prodotto software per i consumatori che si concentrerà sulla connessione emotiva tra l'utente e l'IA, ma ha rifiutato di fornire ulteriori dettagli.
"L'idea è di creare nuove esperienze più coinvolgenti con l'AI, che siano più piacevoli", ha detto a Reuters. "In questo momento ci sono molte aziende che si concentrano sulla superintelligenza, ma non sulla qualità dell'interazione uomo-computer".