AudioGPT est un système d’intelligence artificielle multimodales, conçu pour traiter les informations audio complexes.
Cette forme d’IA permet également de soutenir et de renforcer le dialogue oral, au sein des grands modèles de langage.
AudioGPT , une version améliorée de ChatGPT
AudioGPT est au coeur de toutes les discussions actuellement.
Cette solution informatique basée sur l’intelligence artificielle permet de comprendre et de générer de la parole, de la musique, des sons et aussi des têtes parlantes.
AudioGPT – connecting ChatGPT with audio foundation models
This new paper proposes AudioGPT, which connects ChatGPT with audio foundational models to handle challenging audio tasks and a modality transformation interface to enable spoken dialogue.https://t.co/iI27a5BQTR pic.twitter.com/tRv6NPtbNc
— elvis (@omarsar0) April 26, 2023
Le système utilise deux interfaces d’entrée/sortie, pour soutenir le dialogue oral.
Il s’agit des interfaces ASR et TTS.
Comme son nom l’indique, l’interface TTS (Text-to-Speech) permet d’obtenir une réponse audio après avoir introduit un texte dans AudioGPT.
Tandis que l’interface ASR permet d’obtenir une réponse audio après une requête verbale.
AudioGPT relie ChatGPT à des modèles de base audio, pour gérer des tâches audio difficiles
L’utilisation des grands modèles de langage a permis de faire des progrès dans de nombreux domaines, y compris celui de l’apprentissage automatique.
Pourtant, il y a des domaines qui leur échappent.
En effet, les grands modèles de langage ne parviennent pas à disséquer les fichiers audios complexes.
Les assistants vocaux le font aisément par contre. Les cas de Siri et d’Alexa en disent long.
C’est pour pallier cette difficulté qu’une équipe a conçu un système d’intelligence artificielle multimodales à partir de ChatGPT, dénommé AudioGPT.
AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head
abs: https://t.co/fzLeQnVFHd pic.twitter.com/93OrTtF2BU
— AK (@_akhaliq) April 26, 2023
En rapport : ChatGPT se dote d’un nouveau rival et Elon Musk en est le créateur
Au moment où cet article est mis sous presse, cet outil qui n’est rien d’autre qu’une version améliorée de ChatGPT subit des tests.
L’objectif visé est d’évaluer AudioGPT en termes de cohérence, de capacité et de robustesse.
Les travaux de l’équipe ont été publiés sur arXiv.
Pour rappel, arXiv est une plateforme accessible au public et sur laquelle les chercheurs publient les résultats de leurs recherches dans les domaines de la physique, des mathématiques, de l’informatique, de la biologie quantitative, de la finance, etc.
Quelles sont les alternatives à AudioGPT ?
À l’instar de ChatGPT, AudioGPT possède également quelques alternatives.
Il existe en effet, plusieurs projets sonores automatiques basés sur l’intelligence artificielle. C’est le cas par exemple de SoundGPT et de AudioLDM.
L’assistant virtuel SoundGPT utilise un traitement du langage naturel basé sur l’intelligence artificielle pour comprendre et répondre aux commandes vocales.
A l’instar d’AudioGPT, SoundGPT utilise des algorithmes d’apprentissage profond pour analyser une énorme base de données de musique existante.
L’outil génère ensuite des compositions musicales originales et libres de droits, en fonction de paramètres spécifiques définis par l’utilisateur, tels que le genre, l’humeur, le tempo et l’instrument.
AudioLDM est un système d’intelligence artificielle qui utilise l’interface TTA (Text-to-audio).
Ce qu’il faut retenir :
- L’utilisation des grands modèles de langage a permis de faire des progrès dans de nombreux domaines, y compris celui de l’apprentissage automatique
- AudioGPT est une solution informatique basée sur l’intelligence artificielle permet de comprendre et de générer de la parole, de la musique, des sons et aussi des têtes
- A l’instar d’AudioGPT, SoundGPT utilise des algorithmes d’apprentissage profond pour analyser une énorme base de données de musique existante.