ChatGPT agora também pode gerar imagens

O ChatGPT agora pode gerar imagens – e elas são surpreendentemente detalhadas. Na quarta-feira (20), a OpenAI, startup de inteligência artificial de São Francisco, lançou uma nova versão de seu gerador de imagens DALL-E para um pequeno grupo de testadores e incorporou a tecnologia no ChatGPT, seu popular chatbot online .

Chamado DALL-E 3, ele pode produzir imagens mais convincentes do que as versões anteriores da tecnologia, mostrando um talento especial para imagens contendo letras, números e mãos humanas, disse a empresa.

“É muito melhor para compreender e representar o que o usuário está pedindo”, disse Aditya Ramesh, pesquisadora da OpenAI, acrescentando que a tecnologia foi construída para ter uma compreensão mais precisa da língua inglesa.

Ao adicionar a versão mais recente do DALL-E ao ChatGPT, a OpenAI está solidificando seu chatbot como um hub para IA generativa, que pode produzir texto, imagens, sons, software e outras mídias digitais por conta própria. Desde que o ChatGPT se tornou viral no ano passado, deu início a uma corrida entre os gigantes da tecnologia do Vale do Silício para estar na vanguarda da IA com avanços.

Na terça-feira, o Google lançou uma nova versão de seu chatbot , Bard, que se conecta a vários dos serviços mais populares da empresa, incluindo Gmail, YouTube e Docs. Midjourney e Stable Diffusion, dois outros geradores de imagens, atualizaram seus modelos neste verão.

A OpenAI há muito oferece maneiras de conectar seu chatbot a outros serviços online, incluindo Expedia, OpenTable e Wikipedia. Mas esta é a primeira vez que a start-up combina um chatbot com um gerador de imagens.

DALL-E e ChatGPT eram anteriormente aplicativos separados. Mas com o lançamento mais recente, as pessoas agora podem usar o serviço ChatGPT para produzir imagens digitais simplesmente descrevendo o que desejam ver. Ou podem criar imagens a partir de descrições geradas pelo chatbot, automatizando ainda mais a geração de gráficos, arte e outras mídias.

Em uma demonstração esta semana, Gabriel Goh, pesquisador da OpenAI, mostrou como o ChatGPT agora pode gerar descrições textuais detalhadas que são então usadas para produzir imagens. Depois de criar descrições de um logotipo para um restaurante chamado Mountain Ramen, por exemplo, o bot gerou diversas imagens dessas descrições em questão de segundos.

A nova versão do DALL-E pode produzir imagens a partir de descrições de vários parágrafos e seguir instruções detalhadas, disse Goh. Como todos os geradores de imagens – e outros sistemas de IA – também está sujeito a erros, disse ele.

Enquanto trabalha para refinar a tecnologia, a OpenAI não compartilhará o DALL-E 3 com o público em geral até o próximo mês. O DALL-E 3 estará então disponível através do ChatGPT Plus, um serviço que custa US$ 20 por mês.

A tecnologia de geração de imagens pode ser usada para espalhar grandes quantidades de desinformação online, alertaram os especialistas. Para se proteger contra isso, com o DALL-E 3, a OpenAI incorporou ferramentas projetadas para prevenir assuntos problemáticos, como imagens sexualmente explícitas e representações de figuras públicas. A empresa também está tentando limitar a capacidade do DALL-E de imitar estilos de artistas específicos.

Nos últimos meses, a IA tem sido usada como fonte de desinformação visual . Uma paródia sintética e não especialmente sofisticada de uma aparente explosão no Pentágono fez com que o mercado bolsista caísse brevemente em Maio, entre outros exemplos . Os especialistas em votação também temem que a tecnologia possa ser usada maliciosamente durante eleições importantes.

Sandhini Agarwal, pesquisadora da OpenAI com foco em segurança e política, disse que o DALL-E 3 tende a gerar imagens mais estilizadas do que fotorrealistas. Ainda assim, ela reconheceu que o modelo poderia ser levado a produzir cenas convincentes, como o tipo de imagens granuladas capturadas por câmeras de segurança.

Na maior parte, a OpenAI não planeja bloquear conteúdo potencialmente problemático proveniente do DALL-E 3. A Sra. Agarwal disse que tal abordagem era “muito ampla” porque as imagens podem ser inócuas ou perigosas dependendo do contexto em que aparecem.

“Realmente depende de onde está sendo usado e de como as pessoas estão falando sobre ele”, disse ela.