Oltre a OpenAI e Microsoft con ChatGPT, Google con Bard e altri colossi tech con soluzioni più e meno popolari, anche Meta Platforms (META) sta investendo molto nel campo dell’intelligenza artificiale (IA).

Dopo il successo riscosso dalla sua IA vocale capace di riconosce più di 4.000 lingue, l’azienda guidata da Mark Zuckerberg ha annunciato il lancio di Voicebox, un innovativo modello generativo di sintesi vocale TTS (text to speech), ma di gran lunga più capace e versatile.

A differenza di altri modelli TTS, come ElevenLabs Prime Voice AI, Voicebox di Meta è in grado di eseguire compiti per i quali non è stato addestrato, tra cui l’editing, la rimozione del rumore, la conversione dello stile e la generazione di campioni diversi.

Sul suo sito ufficiale, l’azienda spiega che Voicebox può eseguire molte attività diverse attraverso l’apprendimento contestuale, ma a differenza di ChatGPT è più flessibile in quanto può anche essere condizionato dal contesto futuro.

Inoltre, secondo Meta, Voicebox supera il modello TTS VALL-E all’avanguardia sia in termini di intelligibilità (5,9% vs 1,9% di tasso di errore delle parole) che di somiglianza audio (0,580 vs 0,681), pur essendo fino a 20 volte più veloce.

Sebbene Meta non lo ha rilasciato per l’alto rischio di utilizzi impropri e fraudolenti, i risultati iniziali sono molto promettenti e possono essere utili per molte applicazioni future.

Le funzionalità di Meta Voicebox

A differenza dei modelli generativi che vengono addestrati per un’applicazione specifica, Voicebox è in grado di eseguire molti compiti per i quali non è stato addestrato.

Ad esempio, può analizzare un campione vocale di 2 secondi per generare il parlato di un nuovo testo. Secondo Meta, questa capacità può essere utilizzata per consentire alle persone con disabilità di parlare ed esprimersi, oppure per personalizzare le voci dei personaggi dei giochi e degli assistenti virtuali.

Oltre a sintetizzare il parlato in sei lingue (inglese, francese, spagnolo, tedesco, polacco e portoghese), Voicebox può anche eseguire la conversione dello stile in diversi modi. Ad esempio, fornendo due campioni audio e di testo, il modello utilizzerà il primo campione audio come riferimento stilistico e modificherà il secondo per adattarlo alla voce e al tono del riferimento.

Inoltre, dal momento che Voicebox può fare la stessa cosa in diverse lingue, sarà in grado di “aiutare le persone a comunicare in modo naturale e autentico, anche se non parlano la stessa lingua”.

In aggiunta, il generatore vocale di Meta può anche eseguire una serie di operazioni di editing. Ad esempio, se un cane abbaia in sottofondo durante la registrazione della voce, è possibile fornire una trascrizione a Voicebox per mascherare il segmento che contiene il rumore. Il modello utilizzerà la trascrizione per generare la parte mancante dell’audio senza il rumore di fondo.

La stessa funzionalità può essere utilizzata anche modificare il parlato: se, per esempio, si è pronunciata una parola in modo errato, è possibile eliminare quella parte del campione audio e trasmetterla a Voicebox insieme a una trascrizione del testo modificato. Anche in questo caso, il modello genererà la parte mancante con il nuovo testo in modo che corrisponda alla voce e al tono circostante.

Un’altra applicazione interessante di Voicebox è il campionamento vocale, generando diversi campioni vocali da una singola sequenza di testo.

I nostri risultati dimostrano che i modelli di riconoscimento vocale addestrati sul parlato sintetico generato da Voicebox hanno prestazioni quasi uguali a quelle dei modelli addestrati sul parlato reale, con un tasso di errore dell’1% rispetto a quello compreso tra il 45 e il 70% del parlato sintetico dei precedenti modelli text-to-speech”, si legge nella descrizione di Meta.

Perché Meta non ha ancora rilasciato Voicebox?

Nonostante i risultati molto promettenti, Meta non ha ancora rilasciato il suo Voicebox a causa delle preoccupazioni etiche su un suo possibile uso improprio.

Di recente, alcuni criminali informatici hanno tentato di truffare un’anziana donna chiamandola al telefono e utilizzando una voce generata dall’intelligenza artificiale per impersonare suo nipote. Di conseguenza l’azienda teme che sistemi avanzati di sintesi vocale come Voicebox potrebbero essere utilizzati per scopi simili o per altre azioni nefaste, come la creazione di prove false o i deepfake.

Come per altre potenti innovazioni nel campo dell’intelligenza artificiale, riconosciamo che questa tecnologia comporta il potenziale di un uso improprio e di danni non intenzionali“, ha scritto Meta sul suo blog dedicato all’intelligenza artificiale.

Mentre crediamo sia importante essere aperti con la comunità dell’IA e condividere la nostra ricerca per far progredire lo stato dell’arte nell’intelligenza artificiale, è anche necessario trovare il giusto equilibrio tra apertura e responsabilità“, ha aggiunto la società sottolineando l’importanza di trasparenza e responsabilità nello sviluppo della tecnologia.

A causa di queste preoccupazioni, Meta non ha ancora reso pubblico il modello, ma ha comunque fornito dettagli tecnici sull’architettura e sul processo di addestramento nel documento tecnico, che contiene anche dettagli su un classificatore in grado di rilevare il parlato e l’audio generato da Voicebox per mitigare i rischi di un suo utilizzo improprio.

Wall Street Memes (WSM) - La nuovissima meme coin

  • Comunità di 1 oltre milione di follower
  • Fondata da esperti in progetti NFT
  • Prevendita live - wallstmemes.com
  • Raccolti $ 300.000 il giorno del lancio