Veja você mesmo: os novos recursos de geração de imagens do ChatGPT são incríveis

A OpenAI lançou uma grande atualização para os recursos de geração de imagens do ChatGPT, uma atualização alucinante que redefine a realidade. Este desenvolvimento representa um salto qualitativo no campo da geração de imagens por inteligência artificial.

Não vou perder seu tempo com números, tamanhos de modelos ou quantas horas de GPU o novo modelo usa. Vou simplesmente mostrar o que esta atualização pode fazer e como ela se compara ao modelo DALL-E anterior.

7. mãos e dedos

Close-up de uma pessoa tocando um acorde de mi menor em um violão, com os dedos pressionando as cordas com pouca profundidade de campo.

A tecnologia de geração de imagens por IA nos surpreendeu quando se tornou popular. Então... olhamos atentamente. A característica distintiva da imagem da IA é a estranha anatomia da mão e dos dedos. Então, qual melhor maneira de testar modelos do que pedir para eles fotografarem uma corda de violão?

Para deixar o melhor para o final, perguntei primeiro ao modelo DALL-E original e depois ao novo gerador de imagens integrado ao modelo ChatGPT 4o.

A imagem acima é o que DALL-E produziu. Apesar das falhas do DALL-E, ele lidou bem com os dedos e a anatomia geral aqui. Mas a corda em si...não é. A posição da mão está muito alta no braço da guitarra para tocar Mi menor. Se você ampliar um pouco, perceberá que o violão tem mais de sete cordas. O espaçamento entre as cordas também é irregular.

Com isso em mente, vamos passar para o ChatGPT 4o.

Eu poderia ter dito que estava brincando e que essa era uma foto antiga de quando eu tocava violão. O ChatGPT 4o é bom assim. Seis cordas igualmente espaçadas e o acorde é na verdade Mi menor. Estou impressionado.

6. figuras históricas

Albert Einstein tomando sorvete no Central Park, vestindo uma camisa casual e suspensórios.

Depois de experimentar gerar imagens de coisas diferentes, decidimos tentar gerar imagens de figuras históricas e, como elas não ficariam ofendidas, seria divertido vê-las em um ambiente moderno. Vamos começar tentando DALL-E 2 e ChatGPT 4 para gerar uma imagem de Einstein.

O resultado do DALL-E 2 foi decepcionante, pois ele havia me avisado com antecedência que não poderia usar uma imagem do próprio Einstein e que usaria uma imagem de alguém que "se parecesse muito com ele". Os visuais de DALL-E 2 têm um estilo cartunesco realista, o que fica claramente evidente aqui. O edifício San Remo ao fundo sugere que esta foto foi tirada no Central Park, mas essa é a única conquista aqui.

Agora vamos para o ChatGPT 4o.

Ao aplicar um filtro preto e branco a esta foto, posso convencê-lo de que é uma foto vintage de verdade. O creme no cone parece perfeitamente cremoso, Einstein aparece em seu estilo calmo característico, e o edifício San Remo ainda está presente ao fundo. Tudo parece perfeito. O ChatGPT 4o fez um ótimo trabalho nesta imagem.

5. personagens fictícios

Uma figura parecida com Lord Sith chama um táxi na George Square, Glasgow, com chuva leve e semáforos ao fundo.

Até agora, vimos que o ChatGPT é especialista em desenhar figuras históricas. Como rostos e pessoas ainda são as melhores maneiras de testar as capacidades da IA, vamos experimentar o Plus.

Usei a palavra “semelhante” para fazer o chatbot cooperar comigo sem enfrentar uma reivindicação de direitos autorais. O resultado do DALL-E foi bom. O personagem realmente lembra um Lorde Sith, e o resto dos elementos são bem precisos.

Não há nada de cartunesco nisso, mas não parece real. Você quer realismo? Veja o que o ChatGPT 4o produziu com o mesmo prompt:

Adoro a atmosfera: a iluminação, a névoa e a presença sinistra do Lorde Sith. Está tudo lá. O único problema é que o Lorde das Trevas está parado na rua, chamando um táxi enquanto olha... para a calçada. Além disso, a placa do táxi diz “TAXL”.

Vamos passar da ficção do futuro para a ficção histórica. Algo assim:

Um personagem parecido com Geralt de Rivia está fazendo compras em um supermercado moderno, empurrando um carrinho de compras e franzindo a testa para os produtos enlatados.

Nada mal mesmo. A imagem ainda tem aquela vibe artificial de desenho animado, e o texto nas caixas de cereal é, como esperado, completamente incompreensível.

O ChatGPT 4o inicialmente rejeitou a reivindicação devido a direitos autorais — mas obteve sucesso quando substituí “similar a” por “similar a”. Olhar:

Estou sem palavras. Como a maioria das pessoas, a interpretação de Geralt feita pelo ChatGPT é basicamente a de Henry Cavill, não a versão do videogame – mas ele acertou em cheio. A carranca é perfeita e a cena parece normal.

Isso poderia passar por uma cena de um comercial estranho. E sim, eu li livros. The Witcher Antes de virar uma série.

4. animação

Um desenho animado de um capitão pirata vestindo um longo casaco vermelho e um braço biônico, rindo no convés de um navio voador. Fundo transparente.

A geração de imagens do OpenAI não se trata apenas de realismo. Embora o DALL-E sempre tenda a adicionar um toque de suavização, independentemente da entrada, decidi levar ambos os modelos ao modo de caricatura completa. O foco estava em melhorar a qualidade dos desenhos animados por meio do uso de técnicas avançadas de inteligência artificial.

Na verdade, o DALL·E fez um bom trabalho aqui – ele até entendeu o pedido de um fundo transparente. de alguma forma. O que obtemos é o padrão xadrez clássico cinza e branco que geralmente significa transparência... só que aqui ele está mesclado à imagem. Então, não é nada transparente.

Também é irônico que a mão biológica gerada pela IA do hacker tenha quatro dedos, enquanto a mão eletrônica tem cinco. Talvez ele tenha coberto o braço errado com cromo?

O ChatGPT 4o parece mais claro e intencional. O estilo de coloração varia — se é melhor ou não é uma questão pessoal — mas parece claramente que um artista pintou dessa forma. Os gráficos do ChatGPT são de alta qualidade e detalhados.

O fundo também já é transparente. Você pode colocá-lo em uma camiseta, imprimi-lo ou até mesmo transformá-lo em um adesivo do WhatsApp instantaneamente.

3. Espelhos e reflexos

Pia de banheiro moderna com escova de dentes e barbeador no balcão, visíveis no espelho e na realidade – a iluminação é suave e uniforme. A precisão dos reflexos em imagens geradas por IA é um desafio constante.

Os espelhos refletem imagens, e os reflexos precisam de lógica espacial para parecerem naturais. Fiz uma entrada que eu sabia que DALL-E tropeçaria. Gerar imagens realistas com reflexos precisos é um dos maiores desafios enfrentados pela inteligência artificial.

Como esperado. Há algo tentando ser um reflexo da torneira no espelho, mas é muito longo. A escova de dentes flutua dentro da pia e não projeta nenhum reflexo. A DALL-E se esforçou muito neste exemplo.

O modelo mais novo faz um trabalho muito melhor em fazer a imagem parecer real, como uma fotografia real. O reflexo da torneira está um pouco torto, mas aceitável. Depois, há a escova de dentes, que tem um reflexo, mas não existe no mundo físico — como um vampiro ao contrário.

Não há um vencedor claro aqui. Os resultados da IA foram inconsistentes, então dei outra chance a ambos com algo mais ambicioso:

Uma mulher está em frente a um espelho de corpo inteiro em um quarto iluminado pelo sol, suas roupas e postura perfeitamente refletidas, com um reflexo claro da janela atrás dela.

...Eu nem quero honrar esse exemplo com uma análise. Pessoal, se vocês querem fazer o DALL-E ficar mal, basta adicionar a palavra “espelho” à sua inscrição. Vamos em frente.

Como esperado, o ChatGPT 4o parece mais realista – mas talvez um pouco surreal desta vez? A pose e as roupas da mulher são refletidas, mas apenas parcialmente, como um efeito XNUMXD do Photoshop. Os ângulos de reflexão também estão errados. A inteligência artificial ainda não consegue lidar com a lógica espacial. Entender o espaço XNUMXD e os reflexos parece ser um grande desafio para a IA.

2. Carros e ruas

Um Ford GT 2006 e um Peugeot 206 furaram o sinal vermelho em Wall Street, Nova York, ao meio-dia.

Sou um entusiasta de carros. Quando o software de geração de imagens de IA foi lançado, uma das primeiras coisas que tentei foi criar imagens de carros. Os resultados não foram bons na época, mas com o lançamento do novo modelo, tive que tentar novamente.

Aqui está DALL-E novamente exibindo sua estética cartunística cada vez mais perturbadora. O Peugeot está na calçada, os semáforos que solicitei estão voltados para os prédios e os números das placas são todos incompreensíveis.

Os resultados do ChatGPT 4o são muito melhores. Os carros são retratados corretamente – até mesmo as calotas da Peugeot são muito precisas e adequadas à época. Esse tipo de detalhe não é acidental. Fica ainda melhor:

Eu poderia usar essa imagem como papel de parede do meu celular. Iluminação, composição, reflexos – tudo parece perfeito. Tirando o estranho vazio na rua, isso poderia passar por uma foto real.

1. Textos e mensagens

Uma carta escrita à mão em papel antigo, em letra cursiva, colocada ao lado de uma caneta-tinteiro e um tinteiro.

Por fim, focamos no ponto fraco de cada gerador de imagens. A maioria dos geradores de imagens de IA tem dificuldade para produzir texto correto. Agora, você já viu bastante bobagem de DALL-E nos exemplos anteriores para entender o que quero dizer. Gerar texto a partir de imagens é um grande desafio para os desenvolvedores dessas tecnologias.

Para torná-la mais interessante — e consistente — acrescentei que a carta deveria conter o texto da carta do Rei Terenas para Arthas em Warcraft III.

DALL-E fez o que faz de melhor com texto: transformou-o em texto pouco claro e incompreensível. Ele conseguiu escrever algumas palavras corretamente, e a atmosfera geral parece boa – a caneta-tinteiro e o tinteiro parecem bons. Mas a precisão da geração de texto ainda é limitada.

O ChatGPT 4o domina isso – cada palavra, em letra cursiva clara. ideal. Comparado ao DALL-E, este é um grande avanço. Muito bem, OpenAI. Este desenvolvimento mostra o quanto as tecnologias de IA avançaram na geração de texto.

As tecnologias de geração de imagens de IA percorreram um longo caminho – e isso fica evidente. O ChatGPT 4o parece ser o primeiro modelo que realmente entende o que é iluminação, textura e contexto. Isso representa um grande avanço no campo de geração de imagens de IA.

Neste ponto, a única questão real que resta é: quão fortes são as proteções do ChatGPT? Eu contornei facilmente suas restrições de direitos autorais. Quanto tempo vai demorar para que alguém desbloqueie o ChatGPT e comece a criar o conteúdo que quiser usando esse modelo incrivelmente capaz? Essa capacidade levanta questões sobre o uso responsável das tecnologias de IA.

ChatGPT