Voltar

Gemini orienta usuários a aprimorar prompts de imagem de IA com detalhes concretos

O Gemini AI da Google despertou uma conversa na rede social X esta semana, lembrando aos usuários que prompts vagos resultam apenas em "resultados decentes". O tweet incentivou os criadores a serem mais precisos, desencadeando uma onda de experimentação entre aqueles que dependem do gerador de imagens Nano Banana da plataforma.

Um usuário de longa data, que tem preferido o Nano Banana em relação a ferramentas concorrentes desde seu lançamento, afirma que as orientações ressoaram. "Eu estava me limitando a descrições simples", escreveu o usuário, observando que frases genéricas como "um gato laranja fofinho brincando com uma bola em estilo aquarela" frequentemente resultam em imagens de qualidade mediana.

A lista de verificação do Gemini expande o prompt além do assunto e estilo. Ela recomenda adicionar dicas de composição e proporção, detalhes de câmera e iluminação, instruções de texto explícitas, restrições factuais e entradas de referência. Embora nem todos os elementos sejam necessários para cada imagem, o autor encontrou três categorias que consistentemente elevaram a saída.

Defina o quadro com composição e proporção

Especificar o quadro elimina o trabalho de adivinhação da IA sobre o recorte. Usuários que adicionam proporções como 16:9 para paisagem, 4:5 para retrato ou 3:4 para variação notam um sentimento mais intencional. Atalhos como "--ar 16:9" agilizam o processo, e rotular o uso final — digamos, um pôster — ajuda o Gemini a personalizar a composição.

Pense como um cinematógrafo com detalhes de iluminação e câmera

Dicas de iluminação mudam dramaticamente o clima. Frases como "iluminação de contraluz na hora dourada criando sombras longas" ou "iluminação Rembrandt com contraste de sombra profundo" guiam o gerador em direção ao realismo cinematográfico. Um prompt de teste lê: "Um close-up de um homem idoso com pele envelhecida, iluminação Rembrandt com efeito chiaroscuro profundo, um lado do rosto em sombra pesada, luz de contorno aguda capturando o cabelo prateado, resolução 8k, texturas altamente detalhadas, --ar 16:9". O resultado assemelha-se a uma fotografia deliberadamente tirada em vez de uma renderização genérica de IA.

Controle o texto em vez de esperar o melhor

Quando o texto aparece em uma imagem, direções vagas levam a letras ilegíveis ou mal posicionadas. Comandos explícitos — o que o texto diz, sua fonte, cor, tamanho e posicionamento — produzem resultados mais limpos. Um exemplo de prompt instrui: "O título 'EXPLORADOR URBANO' renderizado em fonte sans-serif branca e em negrito no topo". Outro expande a instrução para uma foto de produto: "Uma camiseta de algodão preto premium em pose de lay-flat em um fundo de concreto cinza. O título 'EXPLORADOR URBANO' é renderizado em fonte sans-serif branca e em negrito centralizado no peito. Iluminação de estúdio suave de cima para baixo com sombras sutis para mostrar textura de tecido. Alta resolução, estética minimalista, --ar 16:9".

No geral, os primeiros feedbacks da comunidade sugerem que adicionar apenas um ou dois desses detalhes pode melhorar notavelmente a saída. Os usuários são incentivados a pedir ao Gemini sugestões de prompts para refinar os resultados, transformando a IA em um parceiro colaborativo em vez de uma caixa preta.

À medida que as ferramentas de imagem gerativa se tornam mais mainstream, a tendência em direção à especificidade pode moldar como os criadores abordam a arte de IA, combinando a intenção humana com a capacidade da máquina para resultados que se sentem tanto intencionais quanto polidos.

Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas

Também disponível em: