2 de septiembre de 2025
# Quién alimenta a la IA con tu web

(Lista completa al [final](2-IA-search-bots.md#Lista%20completa))
Entré a Cloudflare para una gestión rutinaria (sí, lo del culebrón de La Liga y Cloudflare, me tiran la IP por si soy piratilla del fútbol) y me encontré con algo interesante: los bots de la IA.
En su consola han estrenado un panel llamado **AI Audit**. Lo que hace es mostrar, de forma transparente, **qué crawlers están visitando tu web** y, lo más importante, darte la opción de bloquearlos o dejarlos pasar.
Y aquí está lo interesante: además de los bots de siempre (Googlebot, BingBot, Applebot), aparecen los **bots de la nueva era de la IA generativa**. Es decir, los que se llevan tu contenido para entrenar modelos o responder preguntas en asistentes.
## Los visitantes invisibles (lista de bots destacados)
- **OpenAI**
- `ChatGPT-User`: el rastreo cuando ChatGPT “navega” por una web.
- `GPTBot`: usado para recopilar datos con fines de entrenamiento.
- `OAI-SearchBot`: orientado a búsquedas e indexación para IA.
- **Anthropic (Claude)**
- `ClaudeBot`, `Claude-SearchBot`, `Claude-User`: equivalentes a los de OpenAI, pero para Claude.
- **Perplexity**
- `PerplexityBot`: rastrea webs para alimentar su motor de búsqueda basado en IA.
- `Perplexity-User`: asociado al uso directo desde su app.
- **Meta (Facebook/Instagram)**
- `Meta-ExternalAgent`: crawler de IA para modelos de Meta.
- `FacebookBot`: indexación clásica y usos en IA social.
- **Google**
- `Googlebot`: indexación tradicional.
- `Google-CloudVertex…`: recolección vinculada a Vertex AI.
- **Microsoft**
- `BingBot`: indexación y entrenamiento de Copilot.
- **Apple**
- `Applebot`: usado por Siri, Spotlight y sus futuros sistemas de IA.
- **Amazon**
- `Amazonbot`: IA vinculada a Alexa y otros servicios.
- **Otros jugadores**
- `PetalBot` (Huawei), `ByteSpider` (ByteDance/TikTok).
- `CCBot` (Common Crawl, dataset muy usado en entrenamientos).
- `archive.org_bot` (Internet Archive, archiva webs).
- `DuckAssistBot` (DuckDuckGo con IA).
- `MistralAI-User` (Mistral, nueva hornada europea).
- `ProRataInc` y `Timpibot` (actores menores).
---
## ¿Por qué importa?
Porque ahora mismo **tu web es cantera de datos** para estos sistemas.
Tradicionalmente, la forma de marcar límites era con un archivo llamado **`robots.txt`**. Es un fichero público en la raíz de tu web que indica a los bots qué pueden o no rastrear. El problema: muchos crawlers de IA lo ignoran o lo cumplen a medias.
Ahí es donde Cloudflare añade valor. Con este nuevo panel ya no dependes de la buena voluntad de los bots: puedes **permitirlos o bloquearlos con un clic**. La decisión ya no está en el aire, está en tu mano.
Lo cierto es que en panel de Cloudflare es bastante claro.
---
## Lista completa
Os dejo la imagen en grande, click-derecho y abrir en nueva pestaña si la queréis ver completa.

---
Publicado el 2 de septiembre de 2025, [LinkedIn](https://www.linkedin.com/posts/davidhurtadotoran_mentesinquietas-activity-7368501625084174337-8bAV?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAAT5UsBH3ISG9LTxrgEnB7glCf9CerKWno), [Substack](https://substack.com/profile/293864668-david-hurtado/note/c-151532012), [X](https://x.com/dhtoran/status/1962736410043031608)