Atrás

OpenAI lanza ChatGPT Images 2, un generador de imágenes de IA enfocado en texto

OpenAI lanzó un nuevo modelo de generación de imágenes el martes, denominado ChatGPT Images 2. El servicio se posiciona como un trabajador para contenido visual rico en texto - infografías, pósters científicos, guías de estudio y activos de marketing - áreas donde los modelos anteriores luchaban para renderizar texto legible.

En una rueda de prensa, la líder de producto Adele Li explicó que el enfoque del modelo en "tareas creativas económicamente valiosas" se alinea con la visión más amplia de la empresa de un asistente de IA personal que pueda manejar tanto necesidades conversacionales como visuales. Al mejorar la tipografía, la iconografía y la composición general, ChatGPT Images 2 busca servir a profesionales que necesitan visuales pulidos sin el costo de contratar a un diseñador.

La implementación alcanza a todos los usuarios de ChatGPT de inmediato. Los límites de generación varían según el nivel de suscripción: los planes de pago más altos reciben más créditos de imagen, y los desarrolladores pueden acceder al modelo a través de la API para crear salidas de 2K y 4K de resolución, aunque las últimas siguen en beta y pueden exhibir artefactos ocasionales. Los usuarios también pueden combinar el modelo de imagen con las herramientas de razonamiento de OpenAI, lo que permite al sistema extraer datos de la web, ensamblarlos en un diseño legible y verificar la precisión factual.

La infraestructura de seguridad de OpenAI permanece en su lugar. Las imágenes están etiquetadas con metadatos que cumplen con el estándar C2PA, lo que permite a las plataformas posteriores rastrear la procedencia. La política de la empresa continúa prohibiendo la creación de imágenes abusivas, ilegales o no consensuadas, una salvaguardia que se ha convertido en estándar en la industria después de incidentes de deep-fake de alto perfil.

ChatGPT Images 2 no intenta competir directamente con generadores centrados en el arte como Midjourney o las suites de edición de Adobe Firefly. En cambio, ocupa un terreno intermedio, apuntando a los mercadólogos, educadores y otros profesionales que necesitan visuales atractivos y consistentes a gran escala. El modelo puede producir hasta ocho imágenes desde una sola llamada, preservando la coherencia visual en informes de varias páginas o presentaciones.

Las demostraciones tempranas muestran que el modelo maneja texto multilingüe y mantiene la coherencia de diseño en una serie de imágenes. Sin embargo, la necesidad de regenerar una imagen para ajustes menores significa que los usuarios pueden gastar créditos más rápidamente al afinar los diseños. OpenAI dice que continuará perfeccionando el flujo de edición basado en llamadas para mantener la experiencia fluida.

Los observadores de la industria señalan que el lanzamiento marca un cambio desde los experimentos centrados en video y caprichosos que definieron el proyecto Sora de OpenAI hacia herramientas que apoyan directamente flujos de trabajo generadores de ingresos. Al integrar la inteligencia visual en el ecosistema de ChatGPT, OpenAI fortalece su posición como una plataforma de IA de un solo lugar para tareas conversacionales y creativas - un enfoque que podría influir en cómo las salas de redacción de IA y otras operaciones de contenido pesado integran herramientas generativas.

Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas

También disponible en: