# Basics 5 - Multimodalidad
## Multimodalidad: más allá del texto
![[Basics 5 - Multimodalidad 1.png]]
Allá por 2022 se popularizó la IA generativa con 2 tipos de modelos principalmente:
- modelos de generación de imagen, como Dall·E o Midjourney, es es, texto-a-imagen, y
- modelos de lenguaje, o LLMs, con ChatGPT a la cabeza.
Y durante 2023 apareció rápidamente la *multimodalidad*. La multimodalidad es la capacidad de los modelos de manejar varios formatos.
En realidad, se trata de multimodalidad (múltiples formatos de entrada) y multitarea (múltiples formatos de salida), pero para simplificar, diremos simplemente multimodalidad.
La gracia es que, por ejemplo, al mismo modelo de lenguaje puedas darle como entrada tanto una foto como un texto (que puede ser una pregunta sobre la foto), y el modelo pueda responder con un texto y quizá otra imagen, creada a partir de la original.
Esto de la multimodalidad es un salto cualitativo importante. Permite a la IA trascender el chat de texto y ser capaz de tener "múltiples sentidos", por decirlo así.
## De cualquier formato a cualquier formato
![[Basics 5 - Multimodalidad 2.png]]
Aunque no hay un nombre claro, se tiende a llamar a estos modelos "*modelos fundacionales*", refiriéndose a que pueden recibir cualquier tipo de datos y generar cualquier formato de salida.
En realidad no son simplemente un modelo de IA, sino que empezamos a ver que son arquitecturas complejas que mezclan varios modelos con orquestación de los mismos. Por ejemplo, cuando le pides a ChatGPT que haga una imagen, se lo éstas pidiendo al modelo de lenguaje (GPT-4, por ejemplo) y éste está utilizando un modelo de generación de imagen (Dall·E) para responder.
---
## Gracias a los tokens
![[Basics 5 - Multimodalidad 3.png]]
Lo interesante de esto es que los modelos de IA generativa utilizan tokens para entender el contenido de entrada y de salida. (Recordemos de la píldora anterior que los tokens son la representación matemática del tipo de datos --> [[4-como-funciona]])
Esta conversión de datos a tokens, predicción, y luego convertir la salida de tokens a dato de nuevo permite que los tipos de datos no sean el mismo.
Por ejemplo, en un modelo de texto-a-imagen, el prompt (la descripción de la imagen que quiero) se convierte a *tokens de palabras*, pero el modelo genera una predicción con *tokens de imagen*.
Violá! ya tengo una imagen a partir de palabras. Bueno, en realidad es bastante más complicado, pero así nos entendemos :-)
# Relacionados
## Píldoras
Píldora anterior: [Tipos de inteligencia artificial](2-tipos-de-IA-video.md)
Siguiente píldora: [Evolución del asistente al agente](1-agentes-definicion.md)
## Vídeos
Esta píldora tiene su vídeo! [aquí](5-multimodalidad-video)