2 de septiembre de 2025 # Quién alimenta a la IA con tu web ![](IA-search-bots-1.jpg) (Lista completa al [final](2-IA-search-bots.md#Lista%20completa)) Entré a Cloudflare para una gestión rutinaria (sí, lo del culebrón de La Liga y Cloudflare, me tiran la IP por si soy piratilla del fútbol) y me encontré con algo interesante: los bots de la IA. En su consola han estrenado un panel llamado **AI Audit**. Lo que hace es mostrar, de forma transparente, **qué crawlers están visitando tu web** y, lo más importante, darte la opción de bloquearlos o dejarlos pasar. Y aquí está lo interesante: además de los bots de siempre (Googlebot, BingBot, Applebot), aparecen los **bots de la nueva era de la IA generativa**. Es decir, los que se llevan tu contenido para entrenar modelos o responder preguntas en asistentes. ## Los visitantes invisibles (lista de bots destacados) - **OpenAI** - `ChatGPT-User`: el rastreo cuando ChatGPT “navega” por una web. - `GPTBot`: usado para recopilar datos con fines de entrenamiento. - `OAI-SearchBot`: orientado a búsquedas e indexación para IA. - **Anthropic (Claude)** - `ClaudeBot`, `Claude-SearchBot`, `Claude-User`: equivalentes a los de OpenAI, pero para Claude. - **Perplexity** - `PerplexityBot`: rastrea webs para alimentar su motor de búsqueda basado en IA. - `Perplexity-User`: asociado al uso directo desde su app. - **Meta (Facebook/Instagram)** - `Meta-ExternalAgent`: crawler de IA para modelos de Meta. - `FacebookBot`: indexación clásica y usos en IA social. - **Google** - `Googlebot`: indexación tradicional. - `Google-CloudVertex…`: recolección vinculada a Vertex AI. - **Microsoft** - `BingBot`: indexación y entrenamiento de Copilot. - **Apple** - `Applebot`: usado por Siri, Spotlight y sus futuros sistemas de IA. - **Amazon** - `Amazonbot`: IA vinculada a Alexa y otros servicios. - **Otros jugadores** - `PetalBot` (Huawei), `ByteSpider` (ByteDance/TikTok). - `CCBot` (Common Crawl, dataset muy usado en entrenamientos). - `archive.org_bot` (Internet Archive, archiva webs). - `DuckAssistBot` (DuckDuckGo con IA). - `MistralAI-User` (Mistral, nueva hornada europea). - `ProRataInc` y `Timpibot` (actores menores). --- ## ¿Por qué importa? Porque ahora mismo **tu web es cantera de datos** para estos sistemas. Tradicionalmente, la forma de marcar límites era con un archivo llamado **`robots.txt`**. Es un fichero público en la raíz de tu web que indica a los bots qué pueden o no rastrear. El problema: muchos crawlers de IA lo ignoran o lo cumplen a medias. Ahí es donde Cloudflare añade valor. Con este nuevo panel ya no dependes de la buena voluntad de los bots: puedes **permitirlos o bloquearlos con un clic**. La decisión ya no está en el aire, está en tu mano. Lo cierto es que en panel de Cloudflare es bastante claro. --- ## Lista completa Os dejo la imagen en grande, click-derecho y abrir en nueva pestaña si la queréis ver completa. ![IA-search-bots](IA-search-bots.jpg) --- Publicado el 2 de septiembre de 2025, [LinkedIn](https://www.linkedin.com/posts/davidhurtadotoran_mentesinquietas-activity-7368501625084174337-8bAV?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAAT5UsBH3ISG9LTxrgEnB7glCf9CerKWno), [Substack](https://substack.com/profile/293864668-david-hurtado/note/c-151532012), [X](https://x.com/dhtoran/status/1962736410043031608)