Generar imágenes y gráficos con herramientas de IA

Cuando se trata de IA generativa, el tema de los textos suele recibir la mayor atención. Consulta mi guía para crear texto con IA. Pero los avances en imágenes y gráficos son igual de emocionantes. Y con el vídeo, hoy tienes un anticipo de lo que será posible en un futuro no tan lejano. En este artículo, te daré una visión general de las posibilidades y limitaciones de las ofertas de IA visual.

Las imágenes, los gráficos y los vídeos añaden un enorme valor a los contenidos en línea. Atraen más la atención y no sólo pueden explicar un tema, sino también emocionalizarlo. Esto te da la oportunidad de mostrar tu marca tu y tu identidad corporativa tu y destacar entre la multitud.

Hasta ahora, quienes necesitaban contenidos visuales tenían las siguientes opciones:

1. créalo tú mismo. Además de talento y conocimientos, necesitas las herramientas adecuadas y tiempo para realizarlos. Esto es probablemente poco realista en muchos casos.

2. contrata a alguien. Esta es sin duda la opción de mayor calidad: encuentras a un especialista adecuado. Los resultados aquí suelen ser los mejores porque tienes los visuales creados a la medida de tus necesidades. Sin embargo, como es lógico, aquí también es donde los costes son más elevados.

3. fotos de stock. Puedes utilizar plataformas como Shutterstock, Adobe Stock o Depositphotos. Ofrecen una gran selección, son de buena calidad y asequibles. Incluso hay ofertas gratuitas como Pexels o Pixelio. Inconveniente: obtienes fotos y gráficos estándar que otros también utilizan. La personalización no suele ser posible. Tendrías que hacerlas tú mismo o encargarlas.

Muestra de imágenes AI — El primer intento: Una foto de contribución de Dall-E para este post

A primera vista, los generadores de imágenes de IA parecen una nueva alternativa interesante. Al fin y al cabo, proporcionan contenido visual de forma rápida y sencilla mediante comandos de texto. En teoría, puedes generar una visualización que se ajuste con precisión a bajo coste o incluso gratis.

Entre los generadores de imágenes de IA más conocidos están Dall-E de OpenAI, que también está detrás de ChatGPT, MidJourney y Stable Diffusion. Todos ellos tienen ofertas gratuitas y de pago. Stable Diffusion es de código abierto, por lo que ya se ha desarrollado una comunidad activa en torno a esta herramienta. Esto significa que puedes utilizar Stable Diffusion directamente en tu propio ordenador, o incluso en un smartphone o una tableta.

Para qué sirven las ofertas de IA para imágenes

Estos generadores de imágenes crean obras en todo tipo de estilos: ilustraciones, dibujos, fotos, infografías o incluso con el aspecto de una pintura al óleo. Los límites aquí los pone el material didáctico, tu imaginación, así como tu habilidad y tu perseverancia en la búsqueda del resultado perfecto.

Y eso nos lleva a un punto débil de estas ofertas en cuanto las pruebas por ti mismo: no siempre es tan fácil como se esperaba conseguir el resultado deseado. Al menos no ocurre "con sólo pulsar un botón", como a menudo se describe y promete. A veces tienes suerte y consigues un resultado rápido. A veces te tiras de los pelos porque simplemente no funciona.

Con el tiempo, aprenderás a conseguir los mejores resultados. El elemento central aquí es el prompt, es decir, la instrucción escrita a la herramienta de IA. Sin embargo, lo que funciona bien ahí depende en gran medida de la herramienta.

Dall-E 3, por ejemplo, es muy potente, pero ChatGPT se interpone entre tú y la aplicación. Al igual que con el texto, tú explicas en lenguaje natural lo que tienes en mente. ChatGPT lo recibe y lo traduce en una instrucción para Dall-E. Si no te gusta el resultado, le explicas lo que hay que cambiar. Y así sucesivamente.

En el otro extremo del espectro está la Difusión Estable. Aunque la utilices a través de la aplicación comercial DreamStudio, tienes varias opciones manuales. Tienes aún más libertad si utilizas Stable Diffusion a través de una interfaz en tu propio ordenador, como Automatic1111 o Draw Things.

Para explicarlo así Dall-E es macOS, Stable Diffusion es Linux. Dall-E produce buenos resultados con bastante rapidez. A cambio, tienes que aceptar que el sistema limita lo que puedes hacer y cómo puedes hacerlo. En cambio, Stable Diffusion es inicialmente confuso y complejo. Pero, a cambio, hay muchas posibilidades y puedes utilizar una serie de palancas.

AI Imágenes Muestra blanco y negro — El segundo intento con el mensaje: "Menos colorido, por favor".

Quizás MidJourney podría ser entonces el tercero del grupo para Windows. Sin embargo, tengo que admitir que no me gusta nada la interfaz de MidJourney dentro del servicio de chat Discourse. En este sentido, sólo tengo una experiencia muy limitada con él. Al mismo tiempo, MidJourney es bastante popular porque puedes conseguir grandes resultados con poco esfuerzo. De momento, sin embargo, prefiero utilizar Dall-E 3 a través de ChatGPT.

Desafíos y errores típicos

Un error que veo una y otra vez es que, con demasiada frecuencia, la gente intenta crear imágenes fotorrealistas. En mi opinión, esto no es lo ideal por dos razones:

Los resultados suelen parecer incluso más artificiales que las fotos de archivo en las que se basan. Además, suele faltar un ajuste fino del aspecto de las imágenes. Esto se debe a que las fotos de archivo suelen estar diseñadas para ser lo más neutras posible, lo que las hace a la vez flexibles de usar y aburridas. Las fotos se vuelven interesantes a través de la composición, la iluminación, el juego con la nitidez y el desenfoque. Si no haces ninguna especificación, las herramientas de IA tienden a producir algo mediocre.
Los problemas y errores en la imagen llaman más la atención, mientras que en otros estilos pasan como una expresión de "libertad creativa". Un término técnico en este caso es "valle inquietante": el punto en el que un rostro humano casi correcto parece perturbador debido a un pequeño error.

Por eso suelo recurrir a ilustraciones y gráficos. Eso no significa que las imágenes fotorrealistas no sean útiles en absoluto. Pero es bueno tener otras opciones en mente.

Independientemente del estilo, es importante comprender los límites de las herramientas. Estos a veces pueden ser sorprendentes. Un motivo puede funcionar a la primera, mientras que otra idea puede no funcionar incluso después de docenas de intentos. A menudo esto tiene que ver con lo que la IA conoce por su material de entrenamiento. Puede crear imágenes que aún no existen en ninguna otra parte.

Pero también tienes que darte cuenta de que estas herramientas no tienen la más mínima comprensión de lo que están representando. No tienen ni idea del mundo en general ni, por ejemplo, de la anatomía humana en particular.

Muestra fotorrealista de imágenes AI — El fotorrealismo aún no funciona realmente

Las manos son un ejemplo bien conocido de este problema. Dall-E o Difusión Estable no saben cómo es una mano humana ni cómo funciona. Han visto manos durante el entrenamiento. Pero a veces sólo son visibles desde sitio , están parcialmente oscurecidas o hay dos manos superpuestas. La IA no entiende que una mano humana media tiene cinco dedos y que a veces, debido a la perspectiva o a otras circunstancias, no todos son visibles.

Las escenas complejas también son difíciles. Ejemplo: Quieres una imagen que muestre a un equipo de cinco personas y tienes ideas concretas sobre el aspecto que debe tener cada una de ellas. ¡Buena suerte con eso! Espero que tengas tiempo y paciencia...

La situación es similar si una persona debe adoptar una pose claramente definida o tienes en mente una composición exacta de la imagen. En este caso, ayuda crear una imagen no sólo a partir de una indicación, sino también a partir de una plantilla (lo que se conoce como "imagen a imagen", en contraposición a "texto a imagen"). Difusión Estable también dispone del ayudante ControlNet, que puedes utilizar para determinar los elementos específicos de una plantilla que deben aparecer en la nueva imagen.

Como puedes ver en este punto, cuanto mayores sean las expectativas de tu y más detalladas sean las ideas que tengas para tu , más difícil te resultará. Sin embargo, funciona bien si dejas que la IA te inspire: Por ejemplo, le describes a ChatGPT la finalidad para la que necesitas la imagen y lo que debe representar, y luego ves hasta qué punto te gusta el resultado y lo abordas paso a paso. Con Difusión Estable, en cambio, experimentarás con la indicación, pero también con otras muchas opciones y ajustes.

Los aspectos problemáticos de los generadores de imágenes

Sin embargo, éste no es el único reto. Otro es que estas IAs muestran lo que se puede encontrar en el material de entrenamiento. Y esto incluye prejuicios y clichés. Esto puede incluir roles de género estereotipados o incluso visiones racistas del mundo. En última instancia, es responsabilidad de tu reconocer y eliminar estas representaciones problemáticas. ChatGPT y Dall-E intentan evitarlo activamente.

Otro punto se refiere al "material de formación" que ya se ha mencionado varias veces. Al igual que los generadores de texto, estas herramientas también han aprendido sus habilidades a partir de modelos humanos. Han sido alimentadas con una enorme cantidad de datos. Si estas fotos, gráficos, ilustraciones, pinturas y otras obras podían utilizarse con este fin es una cuestión muy debatida.

"*"indica que los campos son obligatorios

Algunos lo consideran una violación de los derechos de autor. Otros lo comparan con la forma en que los artistas de carne y hueso aprenden de los modelos y siguen las tendencias. Sería ir demasiado lejos entrar aquí en la discusión. Algunos proveedores, como Adobe, utilizan sus propias ofertas de fotos de archivo para sus herramientas y también ofrecen una remuneración por este uso. Esto debería ser adecuado para el sector comercial y, sobre todo, para las empresas.

Perspectivas: De la imagen a la imagen en movimiento

Ya está surgiendo el siguiente campo apasionante para las herramientas de IA: el vídeo. Aquí hay una serie de nuevas ofertas que utilizan la introducción de texto o una imagen como punto de partida.

La calidad de los resultados es bastante sorprendente. Sin embargo, los clips siguen siendo muy cortos. También se pueden encontrar aquí los artefactos y peculiaridades típicos de los generadores de imágenes AI. Actualmente parecen funcionar mejor con escenas relativamente estáticas. Cuanto más compleja sea, más probable es que se cuelen detalles absurdos.

Al mismo tiempo, los generadores de texto e imágenes se encontraban en un punto similar no hace tanto tiempo. Hace unos años, por ejemplo, aún nos parecía fascinante que se pudiera crear cualquier foto de retrato. Hoy, nos quejamos si un detalle de nuestro resultado fotorrealista no es cien por cien correcto.

En este sentido, está justificada la esperanza de que estas herramientas se desarrollen notablemente en los próximos meses y años. Algunos ejemplos

Así que, mientras que los generadores de vídeo todavía están muy lejos, creo que los generadores de imágenes ya son útiles y sensatos hoy en día. Tienen sus límites y sus problemas. No sustituyen a las fotos o gráficos creados manualmente. Más bien, ofrecen otra opción y en manos creativas pueden ser una herramienta útil.

Los veo a un nivel similar al de los generadores de texto actuales: apoyan y a veces inspiran. Funcionan mejor en tándem con una persona.

tu Preguntas sobre la creación de imágenes de IA

¿Qué preguntas tienes sobre la creación de imágenes y gráficos con IA? No dudes en utilizar la función de comentarios. ¿Quieres estar informado sobre nuevos artículos sobre diseño web e IA? Entonces síguenos en Twitter, Facebook LinkedIn o a través de nuestra página Newsletter.

Índice de contenidos

Generar imágenes y gráficos con herramientas de IA

Para qué sirven las ofertas de IA para imágenes

Desafíos y errores típicos

Los aspectos problemáticos de los generadores de imágenes

Perspectivas: De la imagen a la imagen en movimiento

tu Preguntas sobre la creación de imágenes de IA

¿Te ha gustado el artículo?

Con tu valoración nos ayudas a mejorar aún más nuestro contenido.

Jan Tissler

Escribe un comentario Cancelar la respuesta