Home
Tecnologia
Meta presenta Voicebox, un innovativo strumento di sintesi vocale che genera e modifica l’audio

Meta presenta Voicebox, un innovativo strumento di sintesi vocale che genera e modifica l’audio

Massimo De Vincenti

Collaboratore

Disclaimer

Ultimo aggiornamento Giugno 20, 2023

Oltre a OpenAI e Microsoft con ChatGPT, Google con Bard e altri colossi tech con soluzioni più e meno popolari, anche Meta Platforms (META) sta investendo molto nel campo dell’intelligenza artificiale (IA).

Dopo il successo riscosso dalla sua IA vocale capace di riconosce più di 4.000 lingue, l’azienda guidata da Mark Zuckerberg ha annunciato il lancio di Voicebox, un innovativo modello generativo di sintesi vocale TTS (text to speech), ma di gran lunga più capace e versatile.

Introducing Voicebox, a new breakthrough generative speech system based on Flow Matching, a new method proposed by Meta AI. It can synthesize speech across six languages, perform noise removal, edit content, transfer audio style & more.

More details on this work & examples ⬇️

— Meta AI (@MetaAI) June 16, 2023

A differenza di altri modelli TTS, come ElevenLabs Prime Voice AI, Voicebox di Meta è in grado di eseguire compiti per i quali non è stato addestrato, tra cui l’editing, la rimozione del rumore, la conversione dello stile e la generazione di campioni diversi.

Sul suo sito ufficiale, l’azienda spiega che Voicebox può eseguire molte attività diverse attraverso l’apprendimento contestuale, ma a differenza di ChatGPT è più flessibile in quanto può anche essere condizionato dal contesto futuro.

Inoltre, secondo Meta, Voicebox supera il modello TTS VALL-E all’avanguardia sia in termini di intelligibilità (5,9% vs 1,9% di tasso di errore delle parole) che di somiglianza audio (0,580 vs 0,681), pur essendo fino a 20 volte più veloce.

Sebbene Meta non lo ha rilasciato per l’alto rischio di utilizzi impropri e fraudolenti, i risultati iniziali sono molto promettenti e possono essere utili per molte applicazioni future.

Le funzionalità di Meta Voicebox

A differenza dei modelli generativi che vengono addestrati per un’applicazione specifica, Voicebox è in grado di eseguire molti compiti per i quali non è stato addestrato.

Ad esempio, può analizzare un campione vocale di 2 secondi per generare il parlato di un nuovo testo. Secondo Meta, questa capacità può essere utilizzata per consentire alle persone con disabilità di parlare ed esprimersi, oppure per personalizzare le voci dei personaggi dei giochi e degli assistenti virtuali.

Oltre a sintetizzare il parlato in sei lingue (inglese, francese, spagnolo, tedesco, polacco e portoghese), Voicebox può anche eseguire la conversione dello stile in diversi modi. Ad esempio, fornendo due campioni audio e di testo, il modello utilizzerà il primo campione audio come riferimento stilistico e modificherà il secondo per adattarlo alla voce e al tono del riferimento.

Inoltre, dal momento che Voicebox può fare la stessa cosa in diverse lingue, sarà in grado di “aiutare le persone a comunicare in modo naturale e autentico, anche se non parlano la stessa lingua”.

In aggiunta, il generatore vocale di Meta può anche eseguire una serie di operazioni di editing. Ad esempio, se un cane abbaia in sottofondo durante la registrazione della voce, è possibile fornire una trascrizione a Voicebox per mascherare il segmento che contiene il rumore. Il modello utilizzerà la trascrizione per generare la parte mancante dell’audio senza il rumore di fondo.

La stessa funzionalità può essere utilizzata anche modificare il parlato: se, per esempio, si è pronunciata una parola in modo errato, è possibile eliminare quella parte del campione audio e trasmetterla a Voicebox insieme a una trascrizione del testo modificato. Anche in questo caso, il modello genererà la parte mancante con il nuovo testo in modo che corrisponda alla voce e al tono circostante.

Un’altra applicazione interessante di Voicebox è il campionamento vocale, generando diversi campioni vocali da una singola sequenza di testo.

“I nostri risultati dimostrano che i modelli di riconoscimento vocale addestrati sul parlato sintetico generato da Voicebox hanno prestazioni quasi uguali a quelle dei modelli addestrati sul parlato reale, con un tasso di errore dell’1% rispetto a quello compreso tra il 45 e il 70% del parlato sintetico dei precedenti modelli text-to-speech”, si legge nella descrizione di Meta.

Perché Meta non ha ancora rilasciato Voicebox?

Nonostante i risultati molto promettenti, Meta non ha ancora rilasciato il suo Voicebox a causa delle preoccupazioni etiche su un suo possibile uso improprio.

Di recente, alcuni criminali informatici hanno tentato di truffare un’anziana donna chiamandola al telefono e utilizzando una voce generata dall’intelligenza artificiale per impersonare suo nipote. Di conseguenza l’azienda teme che sistemi avanzati di sintesi vocale come Voicebox potrebbero essere utilizzati per scopi simili o per altre azioni nefaste, come la creazione di prove false o i deepfake.

“Come per altre potenti innovazioni nel campo dell’intelligenza artificiale, riconosciamo che questa tecnologia comporta il potenziale di un uso improprio e di danni non intenzionali“, ha scritto Meta sul suo blog dedicato all’intelligenza artificiale.

“Mentre crediamo sia importante essere aperti con la comunità dell’IA e condividere la nostra ricerca per far progredire lo stato dell’arte nell’intelligenza artificiale, è anche necessario trovare il giusto equilibrio tra apertura e responsabilità“, ha aggiunto la società sottolineando l’importanza di trasparenza e responsabilità nello sviluppo della tecnologia.

A causa di queste preoccupazioni, Meta non ha ancora reso pubblico il modello, ma ha comunque fornito dettagli tecnici sull’architettura e sul processo di addestramento nel documento tecnico, che contiene anche dettagli su un classificatore in grado di rilevare il parlato e l’audio generato da Voicebox per mitigare i rischi di un suo utilizzo improprio.

Wall Street Memes (WSM) - La nuovissima meme coin

Comunità di 1 oltre milione di follower
Fondata da esperti in progetti NFT
Prevendita live - wallstmemes.com
Raccolti $ 300.000 il giorno del lancio

VAI ALLA PREVENDITA

Massimo De Vincenti

Collaboratore

Visualizza tutti i post di Massimo De Vincenti

Notizie più Recenti

Altro

Fake News e Intelligenza Artificiale – Rischi e sfide da affrontare

Negli ultimi anni, le fake news sono diventate uno degli…

Maria Luisa Giugliano

Novembre 28, 2024

Tecnologia

Banco BPM rifiuta l’offerta di Unicredit

Il 25 novembre 2024, UniCredit ha sorpreso il mercato finanziario…

Novembre 27, 2024

Finanza e mercati

Le migliori offerte tech e gaming del Black Friday 2024

Siamo ufficialmente nella settimana clou del Black Friday, e sia…

Maria Luisa Giugliano

Novembre 26, 2024

Tecnologia

UniCredit lancia a sorpresa un’offerta totalitaria da 10 miliardi di euro per Banco BPM

Maria Luisa Giugliano

Novembre 25, 2024

Finanza e mercati

Le azioni Nvidia dominano l’era dell’intelligenza artificiale: risultati record, ma è il momento giusto per investire?

Novembre 22, 2024

Finanza e mercati

Nuove Opportunità per gli Investitori: il Fondo Tokenizzato BUIDL di BlackRock Sbarca sul Multichain

Maria Luisa Giugliano

Novembre 14, 2024

Crypto News

Alibaba lancia una nuova AI di ricerca per potenziare le piccole imprese in Europa e Americhe

Maria Luisa Giugliano

Novembre 12, 2024

Tecnologia