Mundo, 27 junio 2025 (ATB Digital).— Google ha presentado Imagen 4, su modelo más avanzado de inteligencia artificial para la generación de imágenes a partir de descripciones textuales, disponible desde hoy en versión preliminar para desarrolladores a través de la API de Gemini y en la plataforma Google AI Studio.
Este lanzamiento, anunciado en el blog oficial para desarrolladores de Google, representa un salto relevante en la evolución de la tecnología de “texto a imagen”, al abordar uno de los retos más persistentes en el sector: la integración precisa y legible de texto dentro de las imágenes generadas por IA.
La llegada de Imagen 4 responde a una demanda creciente de herramientas capaces de producir imágenes fotorrealistas y coherentes, especialmente en contextos donde la combinación de elementos visuales y textuales resulta esencial.
Hasta ahora, los modelos de inteligencia artificial enfrentaban limitaciones notables al intentar renderizar texto dentro de las imágenes, lo que generaba resultados con errores ortográficos, incoherencias formales o una integración deficiente en carteles, logotipos y etiquetas.
Imagen 4 introduce mejoras en la renderización de texto
El equipo responsable de Imagen 4, integrado por los Product Managers Alisa Fortin y Seth Odoom, junto al Developer Advocate Guillaume Vernade, ha subrayado en el anuncio que el nuevo modelo introduce “mejoras significativas en la renderización de texto” respecto a versiones anteriores.
Esta afirmación implica que los usuarios pueden describir escenas que incluyan frases, nombres o mensajes específicos, y obtener imágenes en las que el texto aparece correctamente escrito y visualmente integrado.
La mejora en la renderización de texto se traduce en una probabilidad mucho mayor de que el resultado sea correcto y estéticamente integrado, lo que representa un avance para quienes dependen de la precisión en la presentación de mensajes escritos dentro de imágenes.
La capacidad de generar texto legible dentro de imágenes amplía el espectro de aplicaciones posibles, permitiendo desde la creación de material publicitario personalizado hasta la elaboración de prototipos de productos con etiquetas realistas, pasando por ilustraciones para medios editoriales que requieren mensajes claros y precisos.
Es pertinente señalar que la tecnología de “texto a imagen” se basa en la posibilidad de que cualquier usuario describa una escena con palabras y reciba una representación visual generada por inteligencia artificial.
El anuncio de Google posiciona a Imagen 4 como su “mejor modelo de texto a imagen hasta la fecha”, una declaración que refleja la intención de la compañía de competir directamente con otras soluciones líderes en el mercado, como Midjourney y DALL-E 3 de OpenAI.
Estas plataformas han marcado tendencia en la generación de imágenes mediante inteligencia artificial, pero la capacidad de producir texto legible y coherente dentro de las imágenes sigue siendo un diferenciador clave.
Disponibilidad y tarifas para desarrolladores y creadores
Imagen 4 está disponible actualmente en una modalidad de “vista previa de pago” a través de la API de Gemini. Esta opción permite a los desarrolladores incorporar el modelo en distintos servicios y aplicaciones propias. Además, Google AI Studio ofrece un acceso de pruebas gratuitas limitadas, brindando a los usuarios la posibilidad de interactuar y experimentar con las capacidades del modelo desde un entorno web.
El esquema de precios parte de un costo por cada imagen generada. De acuerdo con la información de la API de Gemini, el valor para generar una imagen con Imagen 4 es de 0,04 dólares, mientras que la versión Ultra tiene un precio de 0,06 dólares por imagen.
Google informó que en las próximas semanas se añadirán nuevos niveles de facturación. También aclaró que los desarrolladores que requieran mayor capacidad de generación de imágenes pueden solicitar la ampliación de sus límites de uso.
Fuente: Infobae