Questa settimana, Meta Platforms (META) ha annunciato il lancio un nuovo modello di intelligenza artificiale (AI) open source, chiamato ImageBind, che combina dati testuali, audio, visivi, di movimento, termici e di posizione per generare contenuti multisensoriali.
Si tratta del primo modello di intelligenza artificiale olistica in grado di associare dati da sei modalità contemporaneamente per affrontare problemi complessi in modo più completo e flessibile, integrando diversi aspetti dell’AI, come il riconoscimento del linguaggio naturale, la visione artificiale, l’elaborazione del suono e il “ragionamento” basato sulla conoscenza.
In altre parole, ImageBind non si concentra solo su un aspetto specifico del problema, come la classificazione delle immagini o la generazione di testi, ma sfrutta l’AI olistica per apprendere e adattarsi continuamente in base ai dati disponibili.
Quando gli esseri umani assorbono informazioni dal mondo esterno, usano innatamente più sensi. Ebbene, Meta offre le chiavi per avvicinare le macchine alle nostre capacità partendo da quella che consente l’apprendimento simultaneo, olistico e diretto da molte e diverse forme di informazioni, senza la necessità di una supervisione esplicita.
“ImageBind può superare i precedenti modelli specialistici addestrati individualmente per una particolare modalità e, cosa più importante, aiuta a far progredire l’intelligenza artificiale consentendo alle macchine di analizzare meglio molte diverse forme di informazioni insieme“, si legge nella nota di presentazione diramata dalla società di Mark Zuckerberg.
Il concetto alla base di questa nuova tecnologia è il collegamento di più tipi di dati in un unico indice multidimensionale (o embedding space, per usare il linguaggio di Meta): può sembrare un’idea un po’ astratta, ma è lo stesso concetto alla base dell’IA generativa.
Durante la fase di addestramento, generatori di immagini come DALL-E, Stable Diffusion e Midjourney utilizzano sistemi che collegano testo e dati visivi per produrre nuove immagini che descrivono quanto richiesto dall’utente con il suo prompt. E lo stesso vale per molti altri strumenti di intelligenza artificiale.
ImageBind è di fatto il primo modello AI che combina in un unico embedding space 6 tipi di dati, ossia:
- Visivi (sotto forma di immagini e video)
- Termici (imaging a infrarossi)
- Testi
- Audio
- Informazioni approfondite
- Letture del movimento generate da un’unità di misura inerziale (IMU)
Un futuristico dispositivo per la realtà virtuale potrebbe così generare non soltanto contenuti audiovisivi, ma anche l’ambiente circostante e il movimento del soggetto su una sorta di palcoscenico fisico.
Immaginiamo, ad esempio, che l’utente chieda al visore di simulare un lungo viaggio in mare: il dispositivo non solo lo posizionerebbe su una nave con il fragore delle onde in sottofondo, ma potrebbe addirittura riprodurre il dondolio del ponte sotto i piedi e la fresca brezza dell’aria dell’oceano.
L’idea, quindi, è che la piattaforma combini vari formati di dati per generare il risultato finale.
In un post sul blog, gli ingegneri di Meta hanno anche anticipato che in futuro potrebbero essere aggiunti altri input sensoriali a ImageBind, come ad esempio meccanismi per rilevare il tocco, il parlato, l’olfatto e addirittura per rispondere a segnali fMRI cerebrali.
AiDoge (Ai) - L'incredibile generatore di meme AI
- Crea & Condividi Meme AI
- La nuova meme coin del settore delle crypto AI
- In prevendita adesso su aidoge.com
- Token basato sul Credit System
- Fai Staking con i Token $Ai per guadagni quotidiani