# 14 - Embodied AI, o el robot que pasa la mantequilla ![Exported image](Exported%20image%2020240705224456-0.png) Embodied AI, o la siguiente locura en el mundo de la IA Generativa, explicado. Durante el último mes y medio o así hemos visto varios vídeos bastante espectaculares de robots realizando tareas comunes. Inversiones millonarias en compañías como Figure AI, Unitree o Agility Robotics ![FIGURE OpenAl nVlDlA intel capital Microsoft BEZOS EXPEDITIONS PARKWAY n ](Exported%20image%2020240705224456-1.png) Agility Robotics, levanta $675M en la última ronda de inversiones, con un valor actual de $2.6B, febrero 2024 Manipulación de objetos y tareas cotidianas llevadas a otro nivel Esto de los robots no es nuevo. Llevamos años viendo vídeos de Boston Dynamics con perrillos y humanoides bailando, corriendo, saltando y aguantando estoicamente patadas de sus creadores para demostrar el avance en la ingeniería y robótica. ¿Qué está pasando ahora? ¿cuál es la novedad? **Robots hasta ahora** Hasta ahora, lograr que un robot se moviera por el mundo y realizara tareas cotidianas, era una labor de ingeniería muy, muy complicada. Utilizando IA y aprendizaje por refuerzo, se ha conseguido que el movimiento sea muy fluido, natural. Robots que aprenden en entornos de simulación virtuales, mediante prueba-y-error, y luego salen al mundo se mueven como lo haría un perrillo de verdad. Así se consigue algo como lo de este vídeo, que grabé en AULA, en IFEMA, en Madrid hace una semana: vídeo aula perrillo Este robot tiene un humano de los tradicionales con un mando a distancia manejándolo. Se podría automatizar el movimiento, mediante programación y cámaras. Pero el avance en este tipo de robots es básicamente lograr ese movimiento natural, adaptable. Las redes neuronales y el aprendizaje por refuerzo eliminan la necesidad de programar el movimiento (patas, gestión del fuerzas, inercia, control del centro de gravedad, etc.), lo cual ha supuesto un gran avance en los últimos años. **Robots a partir de 2024** La novedad es cómo aprenden ahora los robots los movimientos básicos y las tareas cotidianas: usando Inteligencia Artificial Generativa. Y el salto es tremendo. 2023 nos ha enseñado dos cosas respecto a la IA generativa: Primero, que se puede utilizar volúmenes absurdamente grandes de texto y enseñar a un modelo de IA a entender y manejar el lenguaje como lo haría una persona. Ahí tenemos a GPT-4, entrenado con, como suelo yo decir para simplificar, "con toda la información de Internet que fueron capaces de bajarse", y el resultado final es que GPT-4 habla mejor que nosotros. ![Fuente nnuu Internet es q's Hazme un resumen del siguiente texto: Lorem ipsun dotor sit anet , consectetuer adipiscing etit. texto uso 1 M - Lorge L orem dolor amet ipsum sit resu„ir ](Exported%20image%2020240705224456-2.png) Volúmenes brutales de texto de entrada --> Modelo IA --> generar texto coherente de salida. Segundo, que se puede hacer lo mismo con vídeo, y el modelo aprende a entender qué está viendo. Ahí tenemos a GPT-4V, que le das un vídeo, le haces preguntas, y éste responde como si entendiera perfectamente que está viendo. ![Fuente Entrenamiento FounLtional uso Entendimiento Vídeo Veo un platito con mantequilla sobre la mesa ](Exported%20image%2020240705224456-3.png) Vídeos de entrada --> Modelo IA --> explicaciones textuales de salida Ahí tenéis el ejemplo de las motos que puse por aquí hace un mes o así --> [https://www.linkedin.com/posts/davidhurtadotoran_azure-openai-gpt4v-activity-7164930848994148352-T1l6?utm_source=share&utm_medium=member_desktop](https://www.linkedin.com/posts/davidhurtadotoran_azure-openai-gpt4v-activity-7164930848994148352-T1l6?utm_source=share&utm_medium=member_desktop) vídeo motos Parece ser que alguien debió hacerse la siguiente pregunta: Si le damos cantidades ingentes de vídeos de personas haciendo cosas, ¿Podría el modelo aprender a hacer esas cosas, en un formato que se lo podamos poner a un robot? Parece que sí. Y el resultado final es espectacular. Básicamente el robot que hace un mes nos mostraban como que era capaz de manejar una cafetera súper simple, ahora te pasa la manzana y te recoje la cocina. ¿Cómo lo han enseñado? De forma simplificada, poniéndole muchos vídeos de personas recogiendo la cocina. ![Fuente o O o o o s 40 de t te s Pasa Ia nan îento uso Robot control cle controller păros sos ](Exported%20image%2020240705224456-4.png) Vídeos de entrada --> Modelo IA --> patrones de comportamiento de salida, codificados en un formato que pueda entender el sistema de control de un robot Viendo vídeos de personas cogiendo vasos, el robot aprender a hacer esto: ![Exported image](Exported%20image%2020240705224456-5.gif) Antes de seguir, mirad este vídeo y luego volvéis --> [https://www.linkedin.com/posts/davidhurtadotoran_figure-status-update-openai-speech-to-speech-activity-7173921646905307136-GZkk?utm_source=share&utm_medium=member_desktop](https://www.linkedin.com/posts/davidhurtadotoran_figure-status-update-openai-speech-to-speech-activity-7173921646905307136-GZkk?utm_source=share&utm_medium=member_desktop) Manipulación de objetos. Fijáos cómo el robot es extremadamente natural cogiendo el vaso y pasándoselo de una mano a otra para dejarlo en el escurridor. Esto sería una labor de ingeniería complicadísima si alguien tuviera que programar los movimiento de los brazos, las manos, la coordinación entre los 10 dedos. Pero no, nadie lo ha programado. Un modelo de IA lo ha aprendido él solito mirando vídeos de gente recogiendo la cocina. Como GPT aprendió a escribir leyendo contenido de Internet. Aquí el vídeo completo, hace más cosas -> [https://www.linkedin.com/posts/davidhurtadotoran_figure-status-update-openai-speech-to-speech-activity-7173921646905307136-GZkk?utm_source=share&utm_medium=member_desktop](https://www.linkedin.com/posts/davidhurtadotoran_figure-status-update-openai-speech-to-speech-activity-7173921646905307136-GZkk?utm_source=share&utm_medium=member_desktop) Pasamos de una década en avances en robots para que sepan moverse y bailotear, a un avance tremendo donde de verdad podrán aprender cualquier tarea cotidiana útil. ![antes Screenwab video uploaded on YouTube by Boston Dynamics Antes; robots que pero no muy o.horo. manipulaci6n obJet0S comunes con una nunca ](Exported%20image%2020240705224456-6.png) -- Os dejo el diagrama completo de esos que tanto nos gusta de Excalidraw donde trato de explicarlo como puedo :-) Click para agrandar ![de lenguosàe UtraoQicionaleSU Fuente Internet Entrado. Hazme un resumen del siguiente texto : Lorem ipsurn dolor sit amet, consectetuer adipiscing elit . Modelos 6eneraci6n 08,0 con texto Entrenamiento uso LLA - o o o Vídeo o o o EntrenAMientO uso multimodal ) del vídeo Veo un platito con mantequilla sobre la mesa Qq„t• es Video s pasa la mantequilla Embodiecl Al Entrenamiento Foundo.tional uso Robot body control instrucciones Lorem dolor amet ipsum sit Robot control I er »'QQAO ](Exported%20image%2020240705224456-7.png) Os dejo también el enlace al diagrama interactivo, para que podáis hacer zoom y tal --> [https://link.excalidraw.com/l/9gMeTZLXisg/3SFi2J97kzg](https://link.excalidraw.com/l/9gMeTZLXisg/3SFi2J97kzg) -- Lo divertido de todo esto es que, por fuerza, los robots más avanzados tendrán que tener aspecto humanoide muy cercano las formas y proporciones de un humano real. Porque el contenido disponible para enseñar al robot a moverse son vídeos de humanos. Yo siempre había pensado que las pelis con robots muy parecidos a nosotros eran el resultado de falta de imaginación (+ la licencia creativa del cine, que no busca realismo). Desde Metrópolis, Blade Runner, Almas de Metal, Terminator, Her, Ex Machina, Yo Robot, requerían "suspensión de la incredulidad" para aceptar que los robots eran humanoides porque había un humano real actuando. Pues no. Parece que no vamos a ver de momento robots de ocho brazos y seis piernas. Aunque mejor, porque sería una visión muy inquietante Bonus: El bonus espectacular es lo que han hecho los de Figure el colaboración con OpenAI: ponerle una interfaz de voz/lenguaje. Es básicamente ChatGPT conectado a las cámaras, para permitirle hablar sobre lo que ocurre a su alrededor, recibir instrucciones, etc. !["can I have something to eat?" speech-to-text on-board robot images OpenAI model common sense reasoning from images Neural Network Policies fast dexterous manipulation Whole Body Controller safe, stable dynamics " sure thing" text-to-speech behavior selection 200hz actions Ikhz joint torques ](Exported%20image%2020240705224456-8.jpeg) Aquí una imagen publicada por Figure que explica un poco esto: