# 16 - VASA-1, resuelta la generación de vídeo a partir de audio en tiempo real
Un título demasiado largo para un avance realmente espectacular. Pero es que no hay forma fácil de resumir en un título lo que se ha resuelto con VASA-1.
Estoy todavía mostrando SORA y robots humanoides como parte de los últimos avances espectaculares en IA, que nos muestran que el futuro inmediato es mucho más futurista de lo que esperábamos, y entonces va y se presenta una nueva investigación que va un pasito más alla.

VASA-1 es básicamente lo que muestra el diagrama, sencillo: le das una foto retrato de alguien (¿o algo?), un audio y una serie de parámetros de configuración, y genera un vídeo realista del sujeto de la foto con el audio. Características del resultado:
- Calidad del video hiperrealista. Psé, esto no sorprende a nadie ya en abril de 2024. Quizá en enero sí nos habría sorprendido, pero ya han pasado al menos 4 meses - Sincronización labial cuasi perfecta. Tampoco sorprender. - Expresividad en los ojos, y naturalidad de movimientos y gestos nunca vistas antes. Esto sí sorprende un poco, la verdad. Realmente para que estás viendo a una persona real trasmitiendo lo que dice el audio. - Posibilidad de parametrizar cosas como hacia dónde mira el avatar (¿a esto se le llama avatar?), inclinación de la cabeza, distancia, etc. - Todo esto en tiempo real. O cuasi tiempo real - retardo imperceptible dicen los inverstigadores-
Esto sí. Esto es lo disruptivo, diría yo. Inmediated. No hay que esperar.
Disruptivo porque los casos de uso aquí aumentan enormemente.
Van algunos ejemplos. Lo único que se nota mucho, y creo que esto en general no está resuelto, es en el movimiento general de la persona. Es como que, el movimiento en bloque, no no sigue las leyes de la física. Cada elemento -la boca, los ojos, el pelo- es cuasi perfecto, pero todo el conjunto tiene algo antinatural.
---
Ejemplo corto, 15 segundos aprox
[https://vasavatar.github.io/VASA-1/video/11.mp4](https://vasavatar.github.io/VASA-1/video/11.mp4)
Ejemplo de control de orientación de la vista/cara. Fijáos en los iconos amarillos
[https://vasavatar.github.io/VASA-1/video/female_gaze.mp4](https://vasavatar.github.io/VASA-1/video/female_gaze.mp4)
Ejemplo de parametrización de la expresión de emoción
[https://vasavatar.github.io/VASA-1/video/male_emotion.mp4](https://vasavatar.github.io/VASA-1/video/male_emotion.mp4)
Mi favorito, probablemente porque me lo mandaron, le di al play sin pensar, y me pegué un susto considerable :-) Ojo a los ojos
[https://vasavatar.github.io/VASA-1/video/o1.mp4](https://vasavatar.github.io/VASA-1/video/o1.mp4)
Lo realmente espectacular: cambiando los parámetros en tiempo real
[https://vasavatar.github.io/VASA-1/video/realtime_demo.mp4](https://vasavatar.github.io/VASA-1/video/realtime_demo.mp4)
---
Esto es paper de investigación de Microsoft. Y no, no hay planes aún de lanzar una demo online, o un API o un producto, hasta que, y cito textualmente, _"estemos seguros de que la tecnología será utilizada de manera responsable y de acuerdo con las regulaciones adecuadas"_ (original, "_until_ _we are certain that the technology will be used responsibly and in accordance with proper regulations_").
Y esto es porque una gran empresa como Microsoft no puede ni quiere lanzar experimentos de IA de este tipo. Lógicamente. IA responsable primero.
Web donde se cuenta todo y de donde he sacado los vídeos --> [https://www.microsoft.com/en-us/research/project/vasa-1/](https://www.microsoft.com/en-us/research/project/vasa-1/)
Paper en Arxiv con más detalle, descargable en PDF --> [https://arxiv.org/abs/2404.10667](https://arxiv.org/abs/2404.10667)