A inteligência artificial nos enganou com o jogo do telefone... e o resultado foi chocante!

Os modelos de geração de imagens com tecnologia de IA estão avançando rapidamente, mas ainda é comum que eles produzam imagens questionáveis. Como é fácil presumir que os prompts humanos são o problema, decidi testar se a IA funciona mais facilmente usando apenas prompts gerados por ela. O processo de geração de imagens com inteligência artificial, como ChatGPT e Gemini, depende muito da qualidade e precisão dos prompts. Os resultados serão diferentes usando reivindicações automatizadas? É isso que descobriremos neste experimento.

Regras práticas

Quando os modelos de geração de imagens de IA surgiram alguns anos atrás, todos nós pensamos que seria um alerta para todos que trabalham com mídia visual. Mas não foi assim. Apesar da capacidade de criar imagens altamente realistas, as imagens de IA geralmente se enquadram na categoria inesperada, especialmente se você precisa de algo mais complexo (por exemplo, a IA tende a ter dificuldade em gerar imagens de mãos).

Você pode culpar os próprios modelos de IA por esse problema ou as deficiências dos humanos e nossas habilidades inconsistentes em escrever afirmações. Uma maneira natural de testar quem é responsável é ver se os modelos de geração de imagens oferecem melhores resultados se você introduzir prompts gerados.

A IA pode nos dar novas perspectivas sobre momentos históricos?

Para testar essa hipótese, usarei o Gemini para criar uma série de prompts que evitam usar o nome do objeto ou imagem que estou tentando criar. Isso ajudará a verificar o quão bem a IA “lê” as instruções. É certo que ainda existe a possibilidade de que o modelo se inspire significativamente nos dados com os quais foi treinado (especialmente ao recriar imagens existentes), mas essa é a realidade, diz Young.

Minha ferramenta de escolha para criar imagens será o Image Creator do Bing (sim, o Bing ainda existe), que é baseado no DALL-E 3. Para testar o modelo, começarei com formas simples e depois passarei para imagens mais complexas conforme o experimento avança.

Se você já usou o ChatGPT e similares, já sabe o quão inúteis algumas de suas respostas podem ser, e não foi diferente com os prompts que o modelo me fez durante uma execução "beta". Portanto, decidi me limitar a 500 caracteres para manter a consistência dos prompts.

Como a IA lida com formas simples

Vamos começar com um quadrado simples. Pedi para Gêmeos descrever um quadrado sem nomeá-lo, e ele respondeu isto:

Um quadrilátero com todos os lados iguais em comprimento. Cada ângulo interno mede exatamente 90 graus. É um quadrilátero regular com lados opostos paralelos.

Depois de inserir a descrição no DALL-E, obtive estes resultados:

É um quadrado, ok, embora eu ache que seja um pouco geométrico demais. Chegou a hora de aumentar a dificuldade, então pedi para a IA detalhar um cubo.

Uma forma tridimensional com seis faces congruentes. Cada face é um quadrilátero regular com quatro lados iguais e quatro ângulos retos. Possui 12 arestas de igual comprimento e 8 vértices. Todos os ângulos dentro da forma são ângulos retos.

Os resultados são surpreendentes:

Lembra do que dissemos sobre a imprevisibilidade dos modelos de IA? Bem, aqui, DALL-E criou um cubo, mas ficou um pouco confuso e o transformou em um Cubo Mágico. Apesar de evitar completamente a palavra exata, a IA errou parcialmente – podemos atribuir isso à popularidade do jogo de quebra-cabeça galáctico.

A abordagem da IA à fotografia com pessoas

A situação do cubo demonstra que, mesmo com uma descrição precisa e “imparcial”, a IA ainda pode interpretar mal instruções bastante diretas. Então, vamos ver como ele se sai com descrições geradas por IA de imagens clássicas, como “Migrant Mother”, de Dorothea Lange. Aqui está a imagem original:

Uma mulher, com o rosto marcado pela preocupação, é vista desviando o olhar da câmera. Seus filhos a cercam, com os rostos escondidos ou virados. Sua mão repousa perto do rosto, expressando exaustão e angústia. A cena sugere pobreza e sofrimento. As roupas da mulher são surradas e a composição geral é sombria, enfatizando a gravidade de suas circunstâncias.

Esta é a visão de DALL-E da famosa imagem:

Tão perto! Mas não é totalmente preciso, já que DALL-E claramente ignorou a frase “Rodeada pelos seus filhos, com os rostos escondidos ou virados.Em vez de a “mãe” colocar a mão perto do rosto, uma das crianças assumiu esse papel.

Vamos tentar algo mais complicado. Você provavelmente já viu a famosa foto “Almoço no topo de um arranha-céu”:

Onze homens sentam-se em uma viga de aço, no alto, almoçando, com as pernas balançando. A viga está suspensa sobre uma cidade em expansão. Os homens parecem relaxados, apesar da altitude extrema. Estão vestidos com trajes de negócios, e a cena foi filmada de um ângulo ligeiramente mais baixo, enfatizando a altura.

Esta afirmação maravilhosa produziu resultados maravilhosos:

Quando você ignora os marcadores clássicos de uma imagem gerada por IA (vasos idênticos e assuntos "copiados e colados"), ela se torna quase surpreendente em termos de composição e sensação geral. Não é de surpreender, no entanto, que essa imagem não seja apenas extremamente comum, mas também seja de domínio público, então tenho uma leve suspeita de que o DALL-E realmente recuperou seu conteúdo durante o treinamento.

A IA pode lidar com imagens complexas?

Como este é o “teste” final do experimento, é hora de levar a sério! Embora a IA seja boa em lidar com imagens humanas, ela frequentemente falha quando se depara com cenas complexas e ambíguas. E o que dizer da famosa foto do “Nascer da Terra” tirada da órbita lunar na Apollo 8?

Uma esfera parcialmente iluminada paira no espaço escuro. Uma esfera menor, cinza, ergue-se acima do horizonte. A esfera maior apresenta manchas azuis e brancas, sugerindo água e nuvens. O forte contraste entre as duas esferas e a escuridão enfatiza a fragilidade e o isolamento da esfera menor, que se eleva.

Gêmeos (ou melhor, eu diria bola) falha nessa descrição. Como era muito abstrato, adicionei a frase "capturado da órbita próxima à lua" à afirmação, mas não ajudou muito:

É uma capa de álbum de rock progressivo bacana, mas não tem nada a ver com Earthrise. Para finalizar o experimento, escolhi a imagem mais misteriosa até agora, a obra-prima industrial de Edward Weston, “Armco Steel”:

Uma série de tanques industriais redondos de metal preenchem o quadro. Suas formas são suaves e bulbosas, criando um padrão repetitivo. A luz reflete nas superfícies, destacando suas formas curvas e criando uma sensação de volume. A composição foca nos aspectos abstratos dos objetos industriais, enfatizando a forma e a textura em vez da função. A cena é simples e moderna, com forte ênfase em luz e sombra.

Parece uma boa entrada, vamos ver se Dall-E concorda conosco:

Embora eu aprecie o clima de ficção científica, ele não se parece em nada com o original. Eu não queria terminar o experimento com um fracasso completo, então decidi ajudar a máquina adicionando o termo "fotografia dos anos 1920" ao final da entrada.

Pensei que esse termo em particular poderia ajudar a esclarecer a imagem à qual eu estava me referindo. Infelizmente, Dall-E me decepcionou novamente e fez outra capa de álbum de rock progressivo:

Os resultados deste experimento foram interessantes, e a conclusão que podemos tirar é que a geração de imagens de IA é altamente imprevisível, especialmente com conceitos mais abstratos. Não importa se a entrada é gerada por IA e precisa, ou gerada por humanos e imperfeita – os resultados parecem aleatórios.

Então, da próxima vez que você tentar culpar a si mesmo e ao seu estilo de entrada, lembre-se de que os resultados provavelmente serão bem parecidos, mesmo que haja dois dispositivos se comunicando.

A inteligência artificial nos enganou com o jogo do telefone... e o resultado foi chocante!

Regras práticas

Como a IA lida com formas simples

A abordagem da IA ​​à fotografia com pessoas

A IA pode lidar com imagens complexas?

A abordagem da IA à fotografia com pessoas