Não restam dúvidas que o fascínio pelo ChatGPT e por modelos de linguagem de inteligência artificial generativa ainda “estão na criada da onda”. Contudo, a OpenAI acaba de lançar uma ferramenta de criação de vídeo deslumbrante e revolucionária, chamada Sora. Tudo isto à distância de um prompt (comando com poucas palavras-chave).
Portanto, com este programa de IA, o seu utilizador bastará fornecer uma descrição do que deseja ver no ecrã e a inteligência artificial apresenta, em formato de vídeo até 1 minuto, uma produção de “alta qualidade”. Na verdade, o impacto deste lançamento foi imediato, levantando a questão: produções Hollywood ou até mesmo de criadores de conteúdo não estarão em risco com este modelo de IA na criação de conteúdo em vídeo? Este que exige somente poucos minutos, sendo de baixo custo?
Open AI promete revolucionador mercado com Sora
Saiba que o CEO da OpenAI, Sam Altman, anunciou ontem, 15 de fevereiro, o lançamento na rede social X, esta nova ferramenta. Com diferentes exemplos mais realistas, futuristas, paisagísticos ou caricaturais, estes primeiros vídeos criados pelo software Sora incluem todo tipo de criações automáticas criadas com inteligência artificial generativa. Ao ponto de Sora ser capaz de criar vídeos inteiros de uma só vez ou expandir os vídeos gerados para torná-los mais longos.
🚨 Good Bye Reality
Every single video in this thread was generated by Open AI's new text to video model "Sora" 🤯
🧵
1/48 pic.twitter.com/ze4Mom2Bgs— Sambhav Gupta (@sambhavgupta6) February 15, 2024
O que esperar do software IA de Sora?
Ao que tudo indicia, Sora poderá gerar cenas complexas com várias personagens, tipos específicos de movimento e detalhes precisos do assunto e do fundo. Ou seja, este modelo entende não apenas o que o utilizador pediu no prompt. Mas também como todos esses elementos refletem-se no Universo que quer-se criado. Logo, o modelo tem um profundo conhecimento da linguagem, o que lhe permite interpretar pistas com precisão e gerar personagens atraentes que expressam emoções vibrantes, garantiu em comunicado a Open AI.
“Aqui está a Sora, o nosso modelo de geração de vídeo”, escreveu o CEO Altman. De realçar que a Open AI também está a dar acesso antecipado a uma variedade de artistas visuais, designers e cineastas para fornecerem feedback sobre como melhorarem o modelo para torná-lo mais útil para profissionais criativos.
Será difícil chegar ao resultado final pretendido?
Vale a pena notar que o prompt ou instruções podem ser mais ou menos detalhadas. Um dos exemplos oferecidos pela OpenAI responde à seguinte solicitação: “Uma mulher estilosa caminha por uma rua de Tóquio repleta de neon brilhante e sinalização animada da cidade. Além disso, esta usa um casaco de couro preta, um vestido longo vermelho, botas pretas e carrega uma bolsa preta. Ainda, caminha com confiança e casualmente. A rua está húmida, criando um efeito espelhado das luzes coloridas.” Poderá perceber o resultado do promt com Sora em baixo:
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
Note que além de poder gerar um vídeo apenas a partir de instruções de texto, o modelo é capaz de recolher uma imagem estática existente e gerar um vídeo a partir desta mesma. Ou seja, Sora tem a habilidade de “animar” o conteúdo da imagem com precisão e atenção aos pequenos detalhes. O modelo também pode recolher um vídeo existente e ampliá-lo ou preencher os quadros que o utilizador considere que estão em falta.
Sora: diferentes exemplos de Vídeos de alta qualidade já partilhados
De facto, o CEO de Open AI, Altman, desde este lançamento, tem publicado novos vídeos partilhados em diferentes tweets, comprovando que os resultados são imediatos. Sora também pode criar vários cenários distintos num único vídeo gerado, mantendo com precisão os personagens e o estilo visual.
here is sora, our video generation model:https://t.co/CDr4DdCrh1
today we are starting red-teaming and offering access to a limited number of creators.@_tim_brooks @billpeeb @model_mechanic are really incredible; amazing work by them and the team.
remarkable moment.
— Sam Altman (@sama) February 15, 2024
“Estamos a ensinar a IA a compreender e simular o mundo físico em movimento, com o objetivo de treinarmos modelos que ajudem as pessoas a resolverem problemas que exigem interação no mundo real”, explica o site da OpenAI. Isto apresentando a nova ferramenta de texto para vídeo. “Sora pode gerar vídeos de até um minuto, mantendo a qualidade visual e a aderência às instruções do seu utilizador, com o prompt.”
Como o Programa IA da Sora realmente funciona?
Portanto, como se percebeu acima, Sora é um novo modelo de IA que pode gerar vídeos a partir de prompts de texto, usando uma técnica chamada síntese de texto para vídeo. Esta técnica envolve a conversão da linguagem natural em representações visuais, como imagens ou vídeos.
Por exemplo, o modelo precisa de saber quais objetos e personagens entram na cena, as suas aparências, como se movimentam, como interagem e como são afetadas por esse ambiente.
Em suma, Sora é baseada numa rede neural profunda, que é um tipo de modelo de aprendizagem de máquina que pode aprender com dados e realizar tarefas complexas. Assim, Sora usa um grande conjunto de dados de vídeos com os quais aprendeu, cobrindo vários tópicos, estilos e géneros.
Além disso, Sora analisa o prompt de texto e extrai as palavras-chave relevantes, como o assunto, a ação, o local, o horário e o clima. Em seguida, esta procura os vídeos mais adequados no seu conjunto de dados que correspondam às palavras-chave e os combina para criar um novo vídeo.
Sora processa dados em poucos segundos
De realçar que Sora também utiliza uma técnica chamada transferência de estilo, que permite modificar a aparência do vídeo. Isto de acordo com as preferências do utilizador. Por exemplo, se o mesmo deseja um vídeo com estilo cinematográfico, filmado em filme 35mm e com cores vivas, Sora pode aplicar esses efeitos ao vídeo, alterando a iluminação, a cor e os ângulos da câmera.
Note que, segundo este lançamento, Sora poderá gerar vídeos com resolução de até 1920×1080 e até 1080×1920. Ainda, esta pode criar vídeos baseados numa imagem estática ou ampliar a filmagem existente com novo material. Por exemplo, se o utilizador fornecer uma imagem estática de uma floresta, Sora poderá animar a imagem e adicionar elementos como animais, pássaros ou pessoas.
Por que o Sora é revolucionária e quais as suas aplicações?
Pelo que se percebe, Sora poderá ser um avanço significativo no campo da IA e geração de vídeo. Pois demonstra uma profunda compreensão da linguagem, percepção visual e dinâmica física. Além disso, também mostra o potencial da IA para criar conteúdo envolvente e para diversos fins, como entretenimento, educação, arte e comunicação.
Algumas possíveis aplicações do Sora são:
- 👉Criação de trailers de filmes, curtas-metragens, animações e documentários a partir de roteiros de texto. Ou seja, Sora poderá ajudar cineastas e contadores de histórias a visualizarem as suas ideias e conceitos e a criarem vídeos atraentes e originais. Sora também pode ajudar os espectadores a descobrirem conteúdos novos e interessantes, com base nas suas preferências e interesses.
- 👉Aprimorar vídeos existentes com novos elementos, como adicionar efeitos especiais, alterar o fundo ou inserir novas personagens. Logo, Sora poderá auxiliar editores e produtores de vídeo a melhorarem e modificarem os seus vídeos, adicionando mais variedade e criatividade.
- 👉Criar vídeos educativos a partir de resumos de textos, como explicação de conceitos científicos, eventos históricos ou fenómenos culturais. Ou seja, Sora poderá ajudar educadores e alunos a criarem e acederem vídeos informativos e envolventes, que podem melhorar a sua compreensão e retenção.
- 👉Criação de vídeos personalizados nas redes sociais. Em suma, Sora poderá ajudar utilizadores e influenciadores de redes sociais a criarem e partilharem vídeos únicos e divertidos. Ora, estes podem expressar a sua personalidade e emoções, com maior facilidade.
- 👉Visualizar ideias, cenários e sonhos, a partir de descrições de texto. Por exemplo, projetar um produto, imaginar um futuro ou explorar um mundo de fantasia. Sora pode ajudar designers e inovadores a criarem e testarem os seus protótipos e visões. Além de obterem feedback e sugestões. Sora também pode ajudar o espetador a vivenciar e desfrutar de diferentes realidades e possibilidades, a partir de sua imaginação e criatividade.
Quais são os desafios e limitações do Software IA Sora?
Tal como admitido pela própria Open IA, Sora não é um programa de IA perfeita e ainda enfrenta alguns desafios e limitações. Alguns destes são:
Neste momento, Sora não está ainda disponível publicamente e só é acessível a um pequeno grupo de pesquisadores e profissionais criativos, para feedback e testes.
A OpenAI não anunciou quando ou como lançará o Sora ao público em geral. Ou qual será o modelo de preço e licenciamento.
Sora está sujeito aos termos de serviço da OpenAI, que proíbem o uso do modelo para criação de conteúdo que envolva “violência extrema, conteúdo sexual, imagens de ódio, semelhança de celebridades ou IP de terceiros”. OpenAI também monitoriza o uso do Sora e reserva-se ao direito de revogar o acesso do utilizador.
De realçar que Sora pode gerar conteúdo impreciso, impróprio ou prejudicial, como deturpar fatos, violar a privacidade ou promover preconceitos. Ainda, Sora pode gerar conteúdo indistinguível da realidade, o que pode representar riscos éticos e sociais, como espalhar desinformação, manipular emoções ou minar a confiança.
Portanto, pelo menos até ao momento, Sora pode não ser capaz de lidar com solicitações complexas ou ambíguas, como aquelas que envolvem múltiplas frases, raciocínio lógico ou conceitos abstratos. Portanto, Sora pode não conseguir gerar vídeos coerentes ou consistentes, como aqueles que exigem continuidade temporal, relações causais ou estrutura narrativa.