Meta presenta ImageBind: un nuovo modello AI multisensoriale

Questa settimana, Meta Platforms (META) ha annunciato il lancio un nuovo modello di intelligenza artificiale (AI) open source, chiamato ImageBind, che combina dati testuali, audio, visivi, di movimento, termici e di posizione per generare contenuti multisensoriali.

Si tratta del primo modello di intelligenza artificiale olistica in grado di associare dati da sei modalità contemporaneamente per affrontare problemi complessi in modo più completo e flessibile, integrando diversi aspetti dell’AI, come il riconoscimento del linguaggio naturale, la visione artificiale, l’elaborazione del suono e il “ragionamento” basato sulla conoscenza.

In altre parole, ImageBind non si concentra solo su un aspetto specifico del problema, come la classificazione delle immagini o la generazione di testi, ma sfrutta l’AI olistica per apprendere e adattarsi continuamente in base ai dati disponibili.

Quando gli esseri umani assorbono informazioni dal mondo esterno, usano innatamente più sensi. Ebbene, Meta offre le chiavi per avvicinare le macchine alle nostre capacità partendo da quella che consente l’apprendimento simultaneo, olistico e diretto da molte e diverse forme di informazioni, senza la necessità di una supervisione esplicita.

“ImageBind può superare i precedenti modelli specialistici addestrati individualmente per una particolare modalità e, cosa più importante, aiuta a far progredire l’intelligenza artificiale consentendo alle macchine di analizzare meglio molte diverse forme di informazioni insieme“, si legge nella nota di presentazione diramata dalla società di Mark Zuckerberg.

Il concetto alla base di questa nuova tecnologia è il collegamento di più tipi di dati in un unico indice multidimensionale (o embedding space, per usare il linguaggio di Meta): può sembrare un’idea un po’ astratta, ma è lo stesso concetto alla base dell’IA generativa.

Durante la fase di addestramento, generatori di immagini come DALL-E, Stable Diffusion e Midjourney utilizzano sistemi che collegano testo e dati visivi per produrre nuove immagini che descrivono quanto richiesto dall’utente con il suo prompt. E lo stesso vale per molti altri strumenti di intelligenza artificiale.

ImageBind è di fatto il primo modello AI che combina in un unico embedding space 6 tipi di dati, ossia:

Visivi (sotto forma di immagini e video)
Termici (imaging a infrarossi)
Testi
Audio
Informazioni approfondite
Letture del movimento generate da un’unità di misura inerziale (IMU)

Un futuristico dispositivo per la realtà virtuale potrebbe così generare non soltanto contenuti audiovisivi, ma anche l’ambiente circostante e il movimento del soggetto su una sorta di palcoscenico fisico.

Immaginiamo, ad esempio, che l’utente chieda al visore di simulare un lungo viaggio in mare: il dispositivo non solo lo posizionerebbe su una nave con il fragore delle onde in sottofondo, ma potrebbe addirittura riprodurre il dondolio del ponte sotto i piedi e la fresca brezza dell’aria dell’oceano.

L’idea, quindi, è che la piattaforma combini vari formati di dati per generare il risultato finale.

In un post sul blog, gli ingegneri di Meta hanno anche anticipato che in futuro potrebbero essere aggiunti altri input sensoriali a ImageBind, come ad esempio meccanismi per rilevare il tocco, il parlato, l’olfatto e addirittura per rispondere a segnali fMRI cerebrali.

AiDoge (Ai) - L'incredibile generatore di meme AI

Valutazione

Crea & Condividi Meme AI
La nuova meme coin del settore delle crypto AI
In prevendita adesso su aidoge.com
Token basato sul Credit System
Fai Staking con i Token $Ai per guadagni quotidiani

VAI ALLA PREVENDITA

Meta presenta ImageBind: un nuovo modello AI multisensoriale

Notizie più Recenti

Fake News e Intelligenza Artificiale – Rischi e sfide da affrontare

Banco BPM rifiuta l’offerta di Unicredit

Le migliori offerte tech e gaming del Black Friday 2024

UniCredit lancia a sorpresa un’offerta totalitaria da 10 miliardi di euro per Banco BPM

Le azioni Nvidia dominano l’era dell’intelligenza artificiale: risultati record, ma è il momento giusto per investire?

Nuove Opportunità per gli Investitori: il Fondo Tokenizzato BUIDL di BlackRock Sbarca sul Multichain

Alibaba lancia una nuova AI di ricerca per potenziare le piccole imprese in Europa e Americhe

Meta presenta ImageBind: un nuovo modello AI multisensoriale

Notizie più lette

Notizie più Recenti