A Nvidia ajuda a resolver os maiores desafios da geração de imagens de IA.

Altos requisitos de potência e computação são um problema fundamental na IA, especialmente em tarefas como criação de mídia. Em celulares, ao executar essas tarefas localmente, apenas alguns dispositivos caros com processadores potentes conseguem executar o conjunto de recursos. Mesmo quando implementado em escala na nuvem, é um processo caro.

A Nvidia pode ter abordado esse desafio discretamente em parceria com o MIT e a Universidade Tsinghua. A equipe criou uma ferramenta híbrida de geração de imagens de IA chamada HART (Hybrid Auto Transformer) combina essencialmente duas das técnicas de geração de imagens de IA mais amplamente utilizadas. O resultado é uma ferramenta muito rápida com requisitos de computação significativamente menores.

Para vocês terem uma ideia de quão rápida ela é, pedi para ela criar uma imagem de um papagaio tocando um baixo. Ele retornou a próxima imagem em apenas um segundo. Eu mal conseguia acompanhar a barra de progresso. Quando usei a mesma entrada com um formulário Imagem do Google 3 No Gemini, levou cerca de 9 a 10 segundos em uma conexão de internet de 200 Mbps.

Um grande salto na geração de imagens usando inteligência artificial

Quando as imagens de IA começaram a ganhar força, a tecnologia de difusão foi a força motriz por trás de tudo, impulsionando produtos como o gerador de imagens Dall-E da OpenAI, o Imagen do Google e o Stable Diffusion. Este método produz imagens detalhadas e de alta resolução. No entanto, são necessárias várias etapas para gerar imagens de IA, o que o torna lento e computacionalmente caro.

A segunda abordagem que ganhou popularidade recentemente são os modelos autorregressivos, que funcionam de forma semelhante aos chatbots e geram imagens usando tecnologia de previsão de pixels. Este método é mais rápido, mas também é mais propenso a erros na geração de imagens de IA.

Uma equipe do MIT combinou os dois métodos em um único pacote chamado HART. Essa técnica se baseia em um modelo autorregressivo para prever elementos de imagem compactados como tokens discretos, enquanto um pequeno modelo de difusão cuida do resto para compensar a perda de qualidade. Essa abordagem reduz o número de etapas usadas de mais de vinte para apenas oito.

Os especialistas por trás do HART afirmam que essa tecnologia “gera imagens que correspondem ou excedem a qualidade dos modelos de difusão de última geração, mas o faz aproximadamente nove vezes mais rápido”. O HART combina um modelo autorregressivo com um intervalo de 700 milhões de parâmetros e um pequeno modelo de difusão que pode lidar com 37 milhões de parâmetros.

Resolvendo a crise de custos de computação

Curiosamente, essa ferramenta HART híbrida foi capaz de gerar imagens tão boas quanto modelos de última geração, com capacidade de 2 bilhões de parâmetros. Mais importante ainda, o HART conseguiu atingir esse feito com uma geração de imagens nove vezes mais rápida, reduzindo os recursos de computação em 31%.

De acordo com a equipe, a abordagem de baixa computação permite que o HART seja executado nativamente em telefones e laptops, o que é um grande sucesso. Até agora, produtos populares de mercado como ChatGPT e Gemini exigem uma conexão com a internet para gerar imagens, já que a computação é feita em servidores em nuvem.

No vídeo de teste, a equipe demonstrou o jogo rodando nativamente em um laptop MSI com um processador Intel Core e uma placa de vídeo Nvidia GeForce RTX. Essa é uma combinação que você pode encontrar na maioria dos laptops gamer do mercado, sem precisar gastar uma fortuna.

O HART é capaz de produzir imagens com proporção de aspecto 1:1 e resolução de 1024 x 1024 pixels. O nível de detalhes nessas imagens é impressionante, assim como a variedade estilística e a precisão da cena. Durante os testes, a equipe observou que a ferramenta de IA híbrida era de três a seis vezes mais rápida e proporcionava uma produtividade mais de sete vezes maior.

As possibilidades futuras são empolgantes, especialmente ao combinar os recursos de imagem do HART com modelos de linguagem. “No futuro, será possível interagir com um modelo generativo unificado de visão e linguagem, talvez pedindo que ele mostre as etapas intermediárias necessárias para montar uma peça de mobiliário”, diz a equipe do MIT.

Eles já estão explorando essa ideia e até planejam testar a abordagem do HART para geração de áudio e vídeo. Você pode experimentar em Painel de Controle Web MIT.

Algumas desvantagens

Antes de nos aprofundarmos na discussão sobre qualidade, é importante ressaltar que o HART ainda é um projeto de pesquisa em seus estágios iniciais. Tecnicamente, há alguns obstáculos destacados pela equipe, como o aumento da sobrecarga durante os processos de inferência e treinamento. Espera-se que este programa testemunhe grandes desenvolvimentos em um futuro próximo.

Esses desafios podem ser corrigidos ou ignorados, pois são pequenos no contexto geral das coisas. Além disso, dados os enormes benefícios que o HART oferece em termos de eficiência, velocidade e latência da computação, esses desafios podem persistir sem levar a problemas significativos de desempenho.

Durante minha curta experiência com o HART usando prompts de texto, fiquei surpreso com a rapidez com que as imagens foram geradas. Nunca me deparei com um cenário em que o freeware levou mais de dois segundos para criar uma imagem. Mesmo com prompts que abrangiam três parágrafos (quase 200 palavras), o HART conseguiu gerar imagens que correspondiam perfeitamente à descrição.

Além da precisão da descrição, havia muitos detalhes nas fotos. No entanto, o HART sofre das desvantagens dos softwares típicos de geração de imagens de IA. Ele tem dificuldade em gerar figuras e desenhos básicos, como alimentação, alinhamento de personagens e captura de perspectiva.

O realismo no contexto humano é uma área em que notei falhas claras. Em algumas ocasiões, o programa interpretou mal coisas básicas, como confundir um anel com um colar. Mas, no geral, esses erros foram poucos e esperados. Muitas ferramentas de IA ainda não conseguem fazer isso corretamente, mesmo que já existam há algum tempo.

No geral, estou muito animado com o tremendo potencial do HART. Será interessante ver se o MIT e a Nvidia criarão um produto a partir disso ou simplesmente adotarão a abordagem de geração de imagens de IA híbrida em um produto existente. De qualquer forma, é um vislumbre de um futuro muito promissor.