Atrás

OpenAI lanza Imágenes 2.0, un modelo de imagen de IA con capacidad de razonamiento y renderizado de texto casi perfecto

OpenAI lanzó Imágenes 2.0 el martes, posicionando el nuevo sistema como un "socio de pensamiento visual" que va más allá del renderizado píxel a píxel. El modelo primero analiza una instrucción, planifica la composición, razona sobre las relaciones espaciales y puede extraer datos en tiempo real de la web antes de dibujar. El resultado: hasta ocho imágenes que compartan personajes y entornos consistentes, todas generadas desde una sola instrucción.

El renderizado de texto, un punto débil histórico de las herramientas de imagen de IA, alcanza una precisión aproximada del 99% en varios idiomas y scripts, incluyendo japonés, coreano, chino, hindi y bengalí. Si las pruebas independientes confirman la afirmación, los diseñadores podrían finalmente confiar en el modelo para gráficos de producción en lugar de demos de novedad.

Dentro de las 12 horas posteriores al lanzamiento, Imágenes 2.0 se convirtió en el número uno en la clasificación de Image Arena, con una puntuación de 1.512, 242 puntos por delante del subcampeón, Google’s Nano Banana 2. La ventaja marca la diferencia más grande registrada en el benchmark, subrayando el impacto inmediato del modelo en el paisaje competitivo.

OpenAI dividió la oferta en dos modos de acceso. El modo "Instante" se envía a todos los usuarios de ChatGPT, gratuitos o de pago, y entrega las mejoras visuales básicas: diseños más nítidos, mejor texto y detalles más ricos. El modo "Pensamiento", reservado para los planes Plus ($20/mes), Pro ($200/mes), Empresarial y Corporativo, desbloquea la búsqueda en la web, la generación de lotes de imágenes y la verificación de salida. Por lo tanto, el nivel premium lleva la mayor parte de la capacidad de razonamiento que impulsa el salto de calidad.

El precio sigue una estructura basada en tokens. Los tokens de entrada cuestan $8 por millón, las entradas en caché cuestan $2 por millón, y la salida de imagen cuesta $30 por millón de tokens. En la práctica, una sola imagen cuesta entre $0,04 y $0,35, dependiendo de la complejidad de la instrucción y la resolución, que puede alcanzar hasta 2K.

El identificador de API es gpt-image-2, y se espera que el acceso para desarrolladores esté disponible a principios de mayo de 2026. OpenAI señaló un corte de conocimiento en diciembre de 2025; cualquier cosa que haya surgido después de esa fecha requiere la función de búsqueda en la web del modelo para mantenerse actualizada.

Las medidas de seguridad incluyen filtrado de contenido, metadatos C2PA para la procedencia y monitoreo continuo, reflejando la respuesta de la empresa a la creciente escrutinio regulatorio sobre los medios sintéticos. OpenAI se negó a divulgar la arquitectura subyacente, describiendo Imágenes 2.0 simplemente como un "modelo generalista" o "GPT para imágenes" sin confirmar si utiliza técnicas de difusión, autoregresivas o híbridas.

Los observadores de la industria ven la capacidad de imagen múltiple como un cambio de juego en el flujo de trabajo. Los equipos de marketing pueden generar ahora una familia de activos de medios sociales, frames de historia o ilustraciones de libros infantiles en una sola operación, eliminando la necesidad de instruir y ensamblar cada imagen individualmente. La integración con Codex significa que los desarrolladores pueden producir bocetos y activos visuales directamente dentro del mismo entorno que utilizan para código, diapositivas y automatización de navegador.

Con DALL-E 2 y DALL-E 3 programados para ser retirados el 12 de mayo de 2026, Imágenes 2.0 se convierte en la herramienta visual principal de OpenAI. El cambio señala una estrategia más amplia: integrar capacidades de imagen generativa en toda la plataforma ChatGPT, posicionando el servicio como un competidor directo no solo de Midjourney y los modelos de Google, sino también de productos de diseño enfocados en SaaS como Canva y Figma.

Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas

También disponible en: