2-multimodalidad-automatizacion

# 2 - Multimodalidad, automatización ![Banner 2.png](Newsletter/2024/attachments/Newsletter%201%20-%20Tecnología%20&%20Mentes%20Inquietas.md/Exported%20image%2020240705224450-0.png) Aquí el segundo número, enfocado con los dos temas del momento: - La **multimodalidad** ya ha llegado. Hora de quitarle el título de "Futuro" a mi diapositiva :-) Os explico la diferencia entre multimodalidad y multitarea. - De la **Productividad a la Automatización**, la siguiente oleada de IA generativa. - Enlaces interesantes, incluyendo un par artículos _must read_ sobre **razonamiento** y **conciencia**. No dejéis de leerlos. # Multimodalidad y multitarea Hoy vamos a hablar sobre todo de la novedad de las imágenes en ChatGPT, porque es mucho más que "imágenes en ChatGPT". Es en realidad la llegada por fin de la multimodalidad. Por partes: A lo largo de este año nos hemos acostumbrado al chat (texto a texto)y generación de imágenes (texto a imagen). Funciona bien, es sólido y hay ya muchas aplicaciones en el mercado que nos permite usarlo. Los sospechosos habituales: ChatGPT para chat, Midjourney, Dall·E y Stable Diffusion para imágenes. Además, hemos visto otros formatos de forma experimental o incipiente: generación de música, generación de vídeo, traducción de vídeo espectacular, etc. Una buena muestra de lo que vendrá en los próximos meses. Pues bien, ahora va OpenAI y mete 2 novedades que son más que la suma de las partes. ChatGPT ahora acepta imágenes de entrada (multimodalidad) y genera imágenes a partir de prompts (multitarea) ## Multimodalidad A ChatGPT le puedes meter una imagen y preguntar por ella. Esto se llama multimodalidad, es decir, varios formatos de entrada (texto, imagen). Lo pontente es el entendimiento semántico de imagen unido a la potencia del modelo de lenguage para ofrecer explicaciones o conclusiones de la imagen. Sube la carta de un restaurante, el ticket, y pregúntale si la cuenta está bien. Sube una foto de un formulario de la sede electrónica de tu ayuntamiento y pídele que te ayude a rellenarlo. Súbele una foto del plano de la ciudad y pídele una ruta del punto A al punto B. Tremendo. Creo que los casos de uso que se os van a ocurrir van a ser espectaculares. Os dejo un ejemplo rápido de "uso de multimodalidad para cosas mundanas". En la conversación completa le subí el ticket con todo lo que habíamos pedido y le pedí que lo contrastara con la carta. Bastante espectacular el resultado, revisando los precios uno a uno e identificando los elementos que estaban en el ticket pero no en la carta. ![Multimodalidad 1.jpg](Newsletter/2024/attachments/Newsletter%201%20-%20Tecnología%20&%20Mentes%20Inquietas.md/Exported%20image%2020240705224450-1.png) Os dejo otro ejemplo tardío que me ha sorprendido por cómo clava el contexto: ![Ecuaciones diferenciales.png](Newsletter/2024/attachments/Newsletter%201%20-%20Tecnología%20&%20Mentes%20Inquietas.md/Exported%20image%2020240705224450-2.png) ## Multitarea La multitarea es la capacidad de ChatGPT que tiene para generar imágenes. Dos cosas interesantes de esto: - ChatGPT está ahora integrado con Dall·E 3, de forma que ya no hablamos de un modelo de lenguaje simplemente, sino de la combinación entre GPT-4 + Dall·E, un LLM y un modelo de generación de imagen. - No genera imágenes a partir de nuestros prompts -como haríamos con Dall·E directamente en Bing o con Midjourney- sino que es el propio ChatGPT con su modelo de lenguaje el que genera los prompts a partir de lo que le pidamos. Esto último es lo espectacular. Al convertir la generación de imagen en una conversación de chat, el refinado de la imagen es una simple conversación con tu nuevo mejor amigo, ChatGPT pidiéndole variaciones. Olvídate del prompt engineering, deja que GPT-4 lo haga por tí :-) Os dejo un par de imágenes donde veis lo que pido y el prompt en una de las imágenes: ![Multimodalidad 2.png](Newsletter/2024/attachments/Newsletter%201%20-%20Tecnología%20&%20Mentes%20Inquietas.md/Exported%20image%2020240705224450-3.png) ![Multimodalidad 3.png](Newsletter/2024/attachments/Newsletter%201%20-%20Tecnología%20&%20Mentes%20Inquietas.md/Exported%20image%2020240705224450-4.png) ¿Cuál es el "pero" de todo esto? --> por ahora, Multimodalidad o Multitarea, las dos cosas a la vez no. Sobre Multimodalidad y el futuro de la IA, os recomiendo este vídeo que encontré ayer en YouTube del gran Carlos Santana DotCSV. Una hora y pico espectacular --> [https://youtu.be/gosmlqmrD1Y](https://youtu.be/gosmlqmrD1Y) # Nuestros vídeos sobre ChatGPT e IA Generativa Alguno sabéis que Ochoa y yo estamos haciendo una serie de vídeos sobre ChatGPT y e IA generativa. Son vídeos informales, grabados en remoto donde os vamos contando cosas interesantes sobre el tema, sin entrar en tecnicismos. Tienen un **pequeño coste simbólico** que nos sirve de motivación, el precio de **un par de cañas**. El viernes grabamos el 4º, sobre multimodalidad. Os enseñamos unos cuantos casos sobre la entrada y salida de imágenes y jugamos con ello en vivo, con todo lo que eso conlleva :-) Aquí los detalles --> [https://www.payhip.com/tenemospreguntas](https://www.payhip.com/tenemospreguntas) ![Multimodalidad 4.png](Newsletter/2024/attachments/Newsletter%201%20-%20Tecnología%20&%20Mentes%20Inquietas.md/Exported%20image%2020240705224450-5.png) ## Copilot: de la Productividad a la Automatización Una idea que estoy utilizando últimamente como colofón final de algunas presentaciones es la evolución de los casos de uso que estamos viendo este año en escenarios empresariales de IA generativa. Y lo resumo en 2 frases: 1. la revolución que estamos viviendo ahora con la IA generativa es una revolución de **Productividad** personal. Ni más ni menos. 2. La siguiente oleada que ya está llegando es la **Automatización**. Productividad A lo largo de 2023 hemos pasado de fliparnos con el chat básico con un LLM -jugar con ChatGPT- al primer escenario realmente útil empresarialmente hablando -chat con mis datos, esto es, que el LLM se conecte a mis fuentes de datos privadas, y esa conversación empiece a ser fiable y productiva- Y en este segundo escenario es donde hemos visto la primera gran revolución: la **Productividad**. Chatear con un asistente que tiene acceso a mis emails, mis documentos, mi calendario, etc. es tener un asistente incansable para ayudarme en tareas de poco valor en mi día a día. Lo quiero ya porque le veo valor directo desde el primer minuto. ![Automatización.png](Newsletter/2024/attachments/Newsletter%201%20-%20Tecnología%20&%20Mentes%20Inquietas.md/Exported%20image%2020240705224450-6.png) ## Automatización Y aparece un tercer escenario cuando evolucionamos el asistente en _algo pensante_, y se empieza a vislumbrar con Microsoft 365 Copilot: la **Automatización**. Copilot no sólo "chatea con mis datos", sino que además maneja las aplicaciones por mí. No sólo me resume el documento de Word para hacer una presentación de PowerPoint, sino que además "maneja PowerPoint" y _hace_ la presentación. ![Automatización 2.png](Newsletter/2024/attachments/Newsletter%201%20-%20Tecnología%20&%20Mentes%20Inquietas.md/Exported%20image%2020240705224450-7.png) En este sentido, **Copilot** tiene una automatización y razonamientos muy básicos. De hecho, los que habéis podido probar M365 Copilot habéis visto que resuelve maravillosamente bien casos básicos, pero todavía no se maneja bien con peticiones complejas. La evolución ya la estamos viendo con dos interesantes aproximaciones, con las que no me enrollaré aquí porque requieren un artículo específico, y además ya os puse los enlaces en la primera Newsletter, pero os lo dejo para que no le perdáis el ojo. # Motor de razonamiento semántico con el framework **Semantic Kernel**, como una evolución de LangChain. El futuro de las aplicaciones infusionadas con IA.Planificador semántico y memoria basada en búsqueda vectorial para gestión de control de flujo de las aplicaciones. ![SemanticKernel.png](Exported%20image%2020240705224450-8.png) Un enlace sobre cómo montar Semantic Kernel con Fabric --> [https://blog.fabric.microsoft.com/en-us/blog/chat-your-data-in-microsoft-fabric-with-semantic-kernel/](https://blog.fabric.microsoft.com/en-us/blog/chat-your-data-in-microsoft-fabric-with-semantic-kernel/) # Agentes autónomos colaborando donde se ha observado que múltiples agentes simples funcionan mucho mejor que un agente complejo (y además es más fácil de implementar). El framework aquí se llama **AutoGen**, aunque el caso más divertido y visual lo han hecho por su cuenta en una universidad con algo a medida que han llamado **ChatDev**. ![Autogen.png](Exported%20image%2020240705224450-9.png) ![ChatDev.png](Exported%20image%2020240705224450-10.png) Enlaces interesantes Un par de vídeos y dos _must reads_ **Vídeos** - El vídeo de [DotCSV - Inteligencia Artificial](https://www.linkedin.com/company/dotcsv-inteligencia-artificial/) , una hora y pico sobre multimodalidad --> [https://youtu.be/gosmlqmrD1Y](https://youtu.be/gosmlqmrD1Y) - Un vídeo de 16 minutos con un resumen del documento de 160 páginas del State of AI 2023 --> [https://youtu.be/RCRuiu-3VDU](https://youtu.be/RCRuiu-3VDU) **Razonamiento** ¿Puede realmente una IA como ChatGPT razonar como nosotros? ¿O hay dimensiones del pensamiento humano que aún le son esquivas? Fascinante línea que separa la lógica de las máquinas y la complejidad del razonamiento humano, nos lo cuenta Jose Ignacio en su artículo en LinkedIn Enlace --> [https://www.linkedin.com/posts/jiconde_puede-razonar-chatgpt-probablemente-sea-activity-7121880608313683968-1FFW?utm_source=share&utm_medium=member_desktop](https://www.linkedin.com/posts/jiconde_puede-razonar-chatgpt-probablemente-sea-activity-7121880608313683968-1FFW?utm_source=share&utm_medium=member_desktop) **Relación entre conciencia e inteligencia** Interesantísimo artículo de La Máquina de Von Neumann del siempre interesante Santiago Sánchez. ¿Es la consciencia simplemente el resultado de una inteligencia avanzada o hay algo más fundamental en juego? Descubre cómo la consciencia, la vida y la inteligencia se entrelazan y dónde encajan los modelos de lenguaje avanzado. Aquí --> [https://www.linkedin.com/posts/santiago-s%C3%A1nchez-migall%C3%B3n-jim%C3%A9nez-587ba727_kristin-andrews-y-la-perspectiva-biologicista-activity-7121824799655440384-d5Po?utm_source=share&utm_medium=member_desktop](https://www.linkedin.com/posts/santiago-s%C3%A1nchez-migall%C3%B3n-jim%C3%A9nez-587ba727_kristin-andrews-y-la-perspectiva-biologicista-activity-7121824799655440384-d5Po?utm_source=share&utm_medium=member_desktop)