El poder de la IA generativa se duplica cada día y el último gran avance de Google en este campo ha sido el lanzamiento de Lumiere. Un modelo de difusión espacio-temporal impulsado por IA, capaz de transformar texto e imágenes en vídeos de hasta 5 segundos con una calidad ultra realista.
Para el desarrollo de este modelo, que ha sido entrenado con un conjunto de 30 millones de vídeos con sus subtítulos de texto y que es capaz de generar 80 fotogramas a 16 fps, el equipo de investigadores de Google ha trabajado en conjunto con el Instituto Weizmann de Ciencias y la Universidad de Tel Aviv.
Lumiere, un fuerte jugador en la IA de creación de vídeo
Lumiere, un modelo de texto a vídeo e imagen a vídeo, tiene la capacidad de convertir palabras e imágenes estáticas en secuencia de vídeo con un gran nivel de realismo.
Según explica Google, lo que diferencia a su modelo de otras IA generadoras de vídeo es que estas «sintetizan fotogramas clave distantes seguidos de superresolución temporal, un enfoque que inherentemente hace que sea difícil lograr una coherencia temporal global», lo que resulta en creaciones que poco realistas y con movimientos poco dinámicos.
Tomando en cuenta estas limitaciones, el equipo de investigadores de Google se han aventurado en cambiar la arquitectura para dar vida a un modelo que puede construir un vídeo en su totalidad de una sola vez, permitiendo movimientos más realistas y naturales. Por lo que Lumiere cuenta con «una arquitectura Espacio-Tiempo U-Net que genera la duración temporal completa del video de una sola vez, a través de un solo paso en el modelo».
Funciones de Lumiere
Lumiere aún no ha sido lanzado oficialmente y tampoco puede probarse en una beta, sin embargo, Google ha publicado un documento donde explica su tecnología y lo ha presentado en su propia página de Github, donde deja varios ejemplos de su capacidad y funcionamiento. Más allá de la generación de vídeo, entre sus funciones encontramos:
- Creación de nuevos estilos: a partir de una imagen de referencia, el modelo puede generar vídeos que repliquen el estilo artístico de esa imagen, teniendo la posibilidad de incluir nuevos elementos.
- Estilización de vídeo: Lumiere puede hacer que un objeto o persona de un vídeo ya existente tenga un estilo diferente. En el vídeo de ejemplo del modelo, se muestra cómo convierte a una mujer y a un perro en figuras de origami, o cómo serían si estuvieran hechos de bloques de madera.
- Dar movimiento a imágenes fijas: del mismo modo, el modelo es capaz de animar partes de una imagen estática. Por ejemplo, Lumiere podría animar la imagen de una mariposa sobre una planta, haciendo que el insecto bata sus alas.
- Completar vídeos reales: una función muy importante de Lumiere es que es capaz de rellenar con bastante exactitud vídeos inacabados o que tienen zonas cortadas. Una función muy útil para expandir el contexto de un vídeo.
- Modificación en tiempo real: también se pueden cambiar partes de un vídeo. Por ejemplo, se puede modificar la ropa que trae una persona por otra a partir de una descripción en texto o incluso borrar elementos no deseados.
Otras IAs generadoras de vídeo
En el mercado existen muchas herramientas de generación de vídeo a partir de texto e imágenes, como el caso de Runway Gen-2, lanzada en julio del 2023, que ha logrado cerrar un acuerdo con el programa de edición Canva; Pika 1.0, lanzada en noviembre; o Stable Video Diffusion, lanzada también en noviembre y que aún se encuentra en fase muy temprana.
Todas han prometido revolucionar el sector de la generación de vídeo a partir de texto, y ahora cuentan con un nuevo y potente competidor. Lumiere ha logrado una naturalidad muy avanzada, por lo que se vislumbra como un jugador difícil de derrotar.