Gemini insta a los usuarios a afinar las instrucciones de imágenes de IA con detalles concretos
La IA Gemini de Google desencadenó una conversación en X esta semana cuando recordó a los usuarios que las instrucciones vagas solo producen resultados "decentes". El tuit instó a los creadores a ser más precisos, lo que provocó una oleada de experimentación entre aquellos que dependen del generador de imágenes Nano Banana de la plataforma.
Un usuario de largo tiempo, que ha estado favoreciendo a Nano Banana sobre herramientas competidoras desde su lanzamiento, dice que el consejo resonó. "Me había estado limitando a descripciones simples", escribió el usuario, señalando que la fraseología genérica como "un gato naranja peludo jugando con una pelota en un estilo de acuarela" a menudo se encuentra en la mitad de la curva de calidad.
La lista de verificación de Gemini amplía la instrucción más allá del tema y el estilo. Recomienda agregar pistas de composición y relación de aspecto, detalles de cámara y iluminación, instrucciones de texto explícitas, restricciones factuales y entradas de referencia. Si bien no todos los elementos son necesarios para cada imagen, el autor encontró tres categorías que consistentemente elevaron la salida.
Defina el marco con la composición y la relación de aspecto
Especificar el marco elimina el trabajo de adivinanza de la IA sobre el recorte. Los usuarios que agregan relaciones como 16:9 para paisaje, 4:5 para retrato o 3:4 para variación notan una sensación más intencional. Las abreviaturas como "--ar 16:9" aceleran el proceso, y etiquetar el uso final - digamos, un póster - ayuda a Gemini a adaptar la composición.
Piense como un cinematógrafo con detalles de iluminación y cámara
Las pistas de iluminación cambian dramáticamente el estado de ánimo. Frases como "iluminación de backlighting de hora dorada que crea sombras largas" o "iluminación de Rembrandt con un contraste de sombra profundo" guían al generador hacia el realismo cinematográfico. Un prompt de prueba lee: "Un primer plano de un anciano con piel curtida, iluminación de Rembrandt con un efecto de chiaroscuro profundo, un lado de la cara en sombra pesada, luz de borde afilada que captura el cabello plateado, resolución 8k, texturas muy detalladas, --ar 16:9". El resultado se asemeja a una fotografía deliberadamente tomada en lugar de una renderización genérica de IA.
Controlar el texto en lugar de esperar lo mejor
Cuando el texto aparece en una imagen, las instrucciones vagas llevan a una letra ilegible o mal colocada. Los comandos explícitos - lo que dice el texto, su fuente, color, tamaño y colocación - producen resultados más limpios. Un ejemplo de prompt instruye: "El titular 'URBAN EXPLORER' renderizado en fuente sans-serif blanca y negrita en la parte superior". Otro amplía la instrucción para una foto de producto: "Una camiseta de algodón negro premium plana sobre un fondo de concreto gris. El titular 'URBAN EXPLORER' está renderizado en una fuente sans-serif blanca y negrita centrada en el pecho. Iluminación de estudio suave desde arriba con sombras sutiles para mostrar la textura de la tela. Alta resolución, estética minimalista, --ar 16:9".
En general, los comentarios iniciales de la comunidad sugieren que agregar solo uno o dos de estos detalles puede mejorar notablemente la salida. Se anima a los usuarios a pedirle a Gemini sugerencias de instrucciones para afinar los resultados, convirtiendo a la IA en un socio colaborador en lugar de una caja negra.
A medida que las herramientas de imagen generativa se vuelven más mainstream, el impulso hacia la especificidad puede dar forma a cómo los creadores abordan el arte de IA, combinando la intención humana con la capacidad de la máquina para resultados que se sienten tanto intencionales como pulidos.
Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas