CM3Leon é o novo gerador de imagens IA da META

Numa altura em que todas as empresas tecnológicas trabalham em avanços em Inteligência Artificial, a Meta anunciou o seu projeto mais recente de arte IA generativa: um modelo de geração IA chamado CM3Leon. O modelo tem sido referenciado como um dos melhores do momento.

Meta aborda problemática de violações de direitos de autor

Ainda que muitas ferramentas estejam a receber elogios pela aceleração obtida no seu trabalho na geração de conteúdos, também têm sofrido críticas devido ao trabalho sujeito a direitos de autor que é utilizado para os treinar. Por isso, muitos processos legais têm sido colocados às empresas de IA.

Por exemplo, a Meta e a OpenAI enfrentam atual um processo de uma comediante americana e autora, Sarah Silverman, que alega que as duas empresas usaram o seu trabalho para treinar modelos de IA sem o seu consentimento.

Por isso, é importante que estas empresas evitem infringir direitos de autor a partir de aqui. Um dos artigos emitidos pela Meta recentemente admite este problema: “as implicações éticas da recolha de dados de imagem em geração de texto-para-imagem têm sido alvo de considerável debate”.

A nova criação da Meta chama-se CM3Leon, o que é pronunciado como Chameleon (camaleão). A solução tem sido treinada com imagens licenciadas da Shutterstock para evitar quaisquer problemas de direitos de autor.

Veja como comprar ações online de novas empresas tecnológicas.

Introdução ao CM3Leon da Meta

Este modelo é multimodal e tem capacidades texto-para-imagem e imagem-para-texto. Isto faz com que seja um dos primeiros modelos IA generativos com a capacidade de gerar texto a partir de imagens. De acordo com a Meta, isto gera a fundação de novos modelos de futuro para compreensão linguística de imagens.

A Meta diz o seguinte: “Com as capacidades CM3Leon, as ferramentas de geração de imagens podem produzir conteúdos de imagem mais coerentes e com melhores prompts. Acreditamos que o desempenho mais forte de CM3Leon em diversas tarefas é um passo em frente para a geração de imagens de alta qualidade e para a sua compreensão”.

Dada a prevalência de ferramentas de arte generativas com IA como a Stable Diffusion, DALL-E e MidJourney, os gráficos gerados por IA já não são uma ideia nova nesta altura. Contudo, os métodos da Meta com o seu CM3Leon são inovadores, e isso poderá ter efeitos importantes no desenvolvimento deste tipo de produtos.

Modelo transformador com base em token

Hoje em dia, os sistemas de geração de texto-para-imagem dependem em grande medida de modelos de difusão, é daí que a Stable Diffusion obteve o seu nome. Uma abordagem alternativa é adotada pelo CM3Leon: um modelo transformador com base em token.

A Meta destaca que, de acordo com as suas investigações, a difusão é muito intensivo do ponto de vista computacional, tornando o processo difícil de operar, com mais custos e mais lento.

Os investigadores da Meta foram capazes de alavancar um novo modelo transformador com base em token para a criação do CM3Leon, mas de uma forma que torna tudo muito mais eficiente.

“O CM3Leon atinge desempenhos de vanguarda para a geração de texto-para-imagem, apesar de ter sido treinado com poder de computação cinco vezes inferior ao de outros métodos transformadores”, diz um investigador da Meta numa publicação de blogue.

Método de treino semelhante ao usado pela OpenAI com o ChatGPT

Além da utilização desta tecnologia, a equipa de desenvolvimento também se serviu de tecnologia SFT (alta calibragem) para melhorar a qualidade gerada das imagens. Este método de treino é semelhante ao usado pela OpenAI com o ChatGPT. Sendo que a Meta utiliza-o para ajudar o modelo a compreender prompts complexas e que são úteis para a geração de tarefas.

“Descobrimos que a afinação de instruções amplifica o desempenho do modelo multi-modal entre várias tarefas, como na geração de texto para imagens, respostas visuais, edição com base em texto e geração de imagens condicionais”, pode-se ler no paper.

Além da simples geração de imagens a partir de prompts em texto, o CM3Leon também pode gerar texto a partir de imagens, editar uma imagem com base em input de texto e ainda responder a questões sobre as imagens geradas.

O modelo também pode gerar imagens com segmentações e efeitos, de acordo com os prompts de texto introduzidos, assim como gerar imagens a partir de outras.

O CM3Leon ainda sofre de alguns problemas que atualmente afetam todos os modelos de IA, incluindo o facto de seguir padrões de conteúdos. A Meta já veio referir que o seu modelo “também pode refletir tendências presentes nos dados com que foi treinado”.

Não se sabe atualmente se a Meta irá lançar o seu modelo CM3Leon para utilização pública ou integrá-lo num dos seus produtos. Mas considerando a qualidade de geração de imagens e eficiência, o modelo irá provavelmente avançar além dos papers de investigação e avançar para produção.

Consulte ainda o nosso guia completo de como investir em criptomoedas em 2024.

Notícias relacionadas

Wall Street Memes (WSM) - Memecoin mais recente

Nossa avaliação

  • Comunidade de 1 milhão de seguidores
  • Fundadores experientes de projeto NFT
  • Pré-venda disponível agora - wallstmemes.com
  • Arrecadou $300.000 no dia do lançamento