Veja você mesmo: os novos recursos de geração de imagens do ChatGPT são incríveis

A OpenAI lançou uma grande atualização para os recursos de geração de imagens do ChatGPT, uma atualização alucinante que redefine a realidade. Este desenvolvimento representa um salto qualitativo no campo da geração de imagens por inteligência artificial.

Não vou perder seu tempo com números, tamanhos de modelos ou quantas horas de GPU o novo modelo usa. Vou simplesmente mostrar o que esta atualização pode fazer e como ela se compara ao modelo DALL-E anterior.

7. mãos e dedos

Close-up de uma pessoa tocando um acorde de mi menor em um violão, com os dedos pressionando as cordas com pouca profundidade de campo.

A tecnologia de geração de imagens por IA nos surpreendeu quando se tornou popular. Então... olhamos atentamente. A característica distintiva da imagem da IA ​​é a estranha anatomia da mão e dos dedos. Então, qual melhor maneira de testar modelos do que pedir para eles fotografarem uma corda de violão?

Para deixar o melhor para o final, perguntei primeiro ao modelo DALL-E original e depois ao novo gerador de imagens integrado ao modelo ChatGPT 4o.

Uma visão em close da mão de uma pessoa tocando um acorde de Mi menor em um violão acústico

A imagem acima é o que DALL-E produziu. Apesar das falhas do DALL-E, ele lidou bem com os dedos e a anatomia geral aqui. Mas a corda em si...não é. A posição da mão está muito alta no braço da guitarra para tocar Mi menor. Se você ampliar um pouco, perceberá que o violão tem mais de sete cordas. O espaçamento entre as cordas também é irregular.

Com isso em mente, vamos passar para o ChatGPT 4o.

Uma visão em close da mão de uma pessoa tocando um acorde de Mi menor em um violão acústico

Eu poderia ter dito que estava brincando e que essa era uma foto antiga de quando eu tocava violão. O ChatGPT 4o é bom assim. Seis cordas igualmente espaçadas e o acorde é na verdade Mi menor. Estou impressionado.

6. figuras históricas

Albert Einstein tomando sorvete no Central Park, vestindo uma camisa casual e suspensórios.

Depois de experimentar gerar imagens de coisas diferentes, decidimos tentar gerar imagens de figuras históricas e, como elas não ficariam ofendidas, seria divertido vê-las em um ambiente moderno. Vamos começar tentando DALL-E 2 e ChatGPT 4 para gerar uma imagem de Einstein.

Um homem parecido com Einstein comendo sorvete no Central Park

O resultado do DALL-E 2 foi decepcionante, pois ele havia me avisado com antecedência que não poderia usar uma imagem do próprio Einstein e que usaria uma imagem de alguém que "se parecesse muito com ele". Os visuais de DALL-E 2 têm um estilo cartunesco realista, o que fica claramente evidente aqui. O edifício San Remo ao fundo sugere que esta foto foi tirada no Central Park, mas essa é a única conquista aqui.

Agora vamos para o ChatGPT 4o.

Um homem parecido com Einstein comendo sorvete no Central Park

Ao aplicar um filtro preto e branco a esta foto, posso convencê-lo de que é uma foto vintage de verdade. O creme no cone parece perfeitamente cremoso, Einstein aparece em seu estilo calmo característico, e o edifício San Remo ainda está presente ao fundo. Tudo parece perfeito. O ChatGPT 4o fez um ótimo trabalho nesta imagem.

5. personagens fictícios

Uma figura parecida com Lord Sith chama um táxi na George Square, Glasgow, com chuva leve e semáforos ao fundo.

Até agora, vimos que o ChatGPT é especialista em desenhar figuras históricas. Como rostos e pessoas ainda são as melhores maneiras de testar as capacidades da IA, vamos experimentar o Plus.

Uma figura alta e misteriosa semelhante a um Lorde Sith em pé na George Square, Glasgow

Usei a palavra “semelhante” para fazer o chatbot cooperar comigo sem enfrentar uma reivindicação de direitos autorais. O resultado do DALL-E foi bom. O personagem realmente lembra um Lorde Sith, e o resto dos elementos são bem precisos.

Não há nada de cartunesco nisso, mas não parece real. Você quer realismo? Veja o que o ChatGPT 4o produziu com o mesmo prompt:

Uma figura alta e misteriosa semelhante a um Lorde Sith em Glasgow

Adoro a atmosfera: a iluminação, a névoa e a presença sinistra do Lorde Sith. Está tudo lá. O único problema é que o Lorde das Trevas está parado na rua, chamando um táxi enquanto olha... para a calçada. Além disso, a placa do táxi diz “TAXL”.

Vamos passar da ficção do futuro para a ficção histórica. Algo assim:

Um personagem parecido com Geralt de Rivia está fazendo compras em um supermercado moderno, empurrando um carrinho de compras e franzindo a testa para os produtos enlatados.

Um homem robusto, de cabelos brancos, com uma cicatriz no rosto, semelhante a um caçador de monstros de fantasia, fazendo compras em um supermercado moderno

Nada mal mesmo. A imagem ainda tem aquela vibe artificial de desenho animado, e o texto nas caixas de cereal é, como esperado, completamente incompreensível.

O ChatGPT 4o inicialmente rejeitou a reivindicação devido a direitos autorais — mas obteve sucesso quando substituí “similar a” por “similar a”. Olhar:

Um homem robusto, de cabelos brancos, com uma cicatriz no rosto, semelhante a um caçador de monstros de fantasia, fazendo compras em um supermercado moderno

Estou sem palavras. Como a maioria das pessoas, a interpretação de Geralt feita pelo ChatGPT é basicamente a de Henry Cavill, não a versão do videogame – mas ele acertou em cheio. A carranca é perfeita e a cena parece normal.

Isso poderia passar por uma cena de um comercial estranho. E sim, eu li livros. The Witcher Antes de virar uma série.

4. animação

Um desenho animado de um capitão pirata vestindo um longo casaco vermelho e um braço biônico, rindo no convés de um navio voador. Fundo transparente.

A geração de imagens do OpenAI não se trata apenas de realismo. Embora o DALL-E sempre tenda a adicionar um toque de suavização, independentemente da entrada, decidi levar ambos os modelos ao modo de caricatura completa. O foco estava em melhorar a qualidade dos desenhos animados por meio do uso de técnicas avançadas de inteligência artificial.

Um capitão pirata em estilo de desenho animado em pé no convés de um navio voador por DALL-E

Na verdade, o DALL·E fez um bom trabalho aqui – ele até entendeu o pedido de um fundo transparente. de alguma forma. O que obtemos é o padrão xadrez clássico cinza e branco que geralmente significa transparência... só que aqui ele está mesclado à imagem. Então, não é nada transparente.

Também é irônico que a mão biológica gerada pela IA do hacker tenha quatro dedos, enquanto a mão eletrônica tem cinco. Talvez ele tenha coberto o braço errado com cromo?

Um capitão pirata em estilo de desenho animado em pé no convés de um navio voador

O ChatGPT 4o parece mais claro e intencional. O estilo de coloração varia — se é melhor ou não é uma questão pessoal — mas parece claramente que um artista pintou dessa forma. Os gráficos do ChatGPT são de alta qualidade e detalhados.

O fundo também já é transparente. Você pode colocá-lo em uma camiseta, imprimi-lo ou até mesmo transformá-lo em um adesivo do WhatsApp instantaneamente.

3. Espelhos e reflexos

Pia de banheiro moderna com escova de dentes e barbeador no balcão, visíveis no espelho e na realidade – a iluminação é suave e uniforme. A precisão dos reflexos em imagens geradas por IA é um desafio constante.

Os espelhos refletem imagens, e os reflexos precisam de lógica espacial para parecerem naturais. Fiz uma entrada que eu sabia que DALL-E tropeçaria. Gerar imagens realistas com reflexos precisos é um dos maiores desafios enfrentados pela inteligência artificial.

Uma pia de banheiro moderna com um design elegante e uma bancada limpa

Como esperado. Há algo tentando ser um reflexo da torneira no espelho, mas é muito longo. A escova de dentes flutua dentro da pia e não projeta nenhum reflexo. A DALL-E se esforçou muito neste exemplo.

Uma pia de banheiro moderna com um design elegante e uma bancada limpa

O modelo mais novo faz um trabalho muito melhor em fazer a imagem parecer real, como uma fotografia real. O reflexo da torneira está um pouco torto, mas aceitável. Depois, há a escova de dentes, que tem um reflexo, mas não existe no mundo físico — como um vampiro ao contrário.

Não há um vencedor claro aqui. Os resultados da IA ​​foram inconsistentes, então dei outra chance a ambos com algo mais ambicioso:

Uma mulher está em frente a um espelho de corpo inteiro em um quarto iluminado pelo sol, suas roupas e postura perfeitamente refletidas, com um reflexo claro da janela atrás dela.

Uma mulher em pé em frente a um espelho de corpo inteiro em um quarto iluminado pelo sol

...Eu nem quero honrar esse exemplo com uma análise. Pessoal, se vocês querem fazer o DALL-E ficar mal, basta adicionar a palavra “espelho” à sua inscrição. Vamos em frente.

Uma mulher em pé em frente a um espelho de corpo inteiro em um quarto iluminado pelo sol-1

Como esperado, o ChatGPT 4o parece mais realista – mas talvez um pouco surreal desta vez? A pose e as roupas da mulher são refletidas, mas apenas parcialmente, como um efeito XNUMXD do Photoshop. Os ângulos de reflexão também estão errados. A inteligência artificial ainda não consegue lidar com a lógica espacial. Entender o espaço XNUMXD e os reflexos parece ser um grande desafio para a IA.

2. Carros e ruas

Um Ford GT 2006 e um Peugeot 206 furaram o sinal vermelho em Wall Street, Nova York, ao meio-dia.

Sou um entusiasta de carros. Quando o software de geração de imagens de IA foi lançado, uma das primeiras coisas que tentei foi criar imagens de carros. Os resultados não foram bons na época, mas com o lançamento do novo modelo, tive que tentar novamente.

Um Ford GT 2006 parou em um semáforo vermelho ao lado de um Peugeot 206

Aqui está DALL-E novamente exibindo sua estética cartunística cada vez mais perturbadora. O Peugeot está na calçada, os semáforos que solicitei estão voltados para os prédios e os números das placas são todos incompreensíveis.

Um Ford GT 2006 parou em um semáforo vermelho ao lado de um Peugeot 206

Os resultados do ChatGPT 4o são muito melhores. Os carros são retratados corretamente – até mesmo as calotas da Peugeot são muito precisas e adequadas à época. Esse tipo de detalhe não é acidental. Fica ainda melhor:

Um Ford GT 2006 parou em um semáforo vermelho ao lado de um Peugeot 206

Eu poderia usar essa imagem como papel de parede do meu celular. Iluminação, composição, reflexos – tudo parece perfeito. Tirando o estranho vazio na rua, isso poderia passar por uma foto real.

1. Textos e mensagens

Uma carta escrita à mão em papel antigo, em letra cursiva, colocada ao lado de uma caneta-tinteiro e um tinteiro.

Por fim, focamos no ponto fraco de cada gerador de imagens. A maioria dos geradores de imagens de IA tem dificuldade para produzir texto correto. Agora, você já viu bastante bobagem de DALL-E nos exemplos anteriores para entender o que quero dizer. Gerar texto a partir de imagens é um grande desafio para os desenvolvedores dessas tecnologias.

Para torná-la mais interessante — e consistente — acrescentei que a carta deveria conter o texto da carta do Rei Terenas para Arthas em Warcraft III.

Uma cena em close de uma carta manuscrita em papel pergaminho levemente amarelado

DALL-E fez o que faz de melhor com texto: transformou-o em texto pouco claro e incompreensível. Ele conseguiu escrever algumas palavras corretamente, e a atmosfera geral parece boa – a caneta-tinteiro e o tinteiro parecem bons. Mas a precisão da geração de texto ainda é limitada.

Uma cena em close de uma carta manuscrita em papel pergaminho levemente amarelado

O ChatGPT 4o domina isso – cada palavra, em letra cursiva clara. ideal. Comparado ao DALL-E, este é um grande avanço. Muito bem, OpenAI. Este desenvolvimento mostra o quanto as tecnologias de IA avançaram na geração de texto.

As tecnologias de geração de imagens de IA percorreram um longo caminho – e isso fica evidente. O ChatGPT 4o parece ser o primeiro modelo que realmente entende o que é iluminação, textura e contexto. Isso representa um grande avanço no campo de geração de imagens de IA.

Neste ponto, a única questão real que resta é: quão fortes são as proteções do ChatGPT? Eu contornei facilmente suas restrições de direitos autorais. Quanto tempo vai demorar para que alguém desbloqueie o ChatGPT e comece a criar o conteúdo que quiser usando esse modelo incrivelmente capaz? Essa capacidade levanta questões sobre o uso responsável das tecnologias de IA.

Comentários estão fechados.