

Durante el último año, el tráfico online a páginas web en todo el mundo registró un aumento interanual cercano al 20%, impulsado en gran medida por los bots utilizados por las grandes empresas tecnológicas para sostener la operación de sus buscadores en línea y entrenar a sus avanzados sistemas de inteligencia artificial (IA), de acuerdo con el análisis Year in Review 2025, elaborado por Cloudflare.

El informe detalla que el incremento se produjo en distintas fases. Hasta mediados de abril, tras varios meses de relativa estabilidad, el tráfico comenzó a crecer de forma gradual hasta alcanzar en mayo un aumento del 5% respecto al nivel de referencia, definido como el volumen diario registrado del 12 al 18 de enero sin considerar la actividad de los bots.

Este indicador se mantuvo con incrementos de entre 4 y 7% hasta mediados de agosto. Sin embargo, durante septiembre, octubre y noviembre se observó un crecimiento significativo y acelerado que, en conjunto, derivó en un aumento anual del 19%, cifra ligeramente superior al incremento del 17% reportado en 2024.

Google y Facebook continúan como los servicios en línea más utilizados a nivel global. No obstante, el reporte subraya el uso cada vez más intensivo de soluciones de IA generativa. En esta categoría, ChatGPT, de OpenAI, se mantiene como la plataforma más empleada. Aun así, herramientas como Perplexity, Claude, de Anthropic, y GitHub Copilot, de Microsoft, mejoraron su posicionamiento en comparación con el año anterior, mientras que servicios como Google Gemini, Windsurf AI, Grok/xAI y DeepSeek ingresaron por primera vez al top 10.

En conjunto, estas variaciones reflejan la rápida evolución de este sector emergente y, al mismo tiempo, intensifican las preocupaciones sobre la forma en que las grandes empresas tecnológicas utilizan el contenido disponible en la red para alimentar sus sistemas y ganar terreno en la competencia por el desarrollo de la IA.

Al respecto, el informe de Cloudflare destaca que “durante 2025, los bots y rastreadores de IA han sido noticia por su voraz consumo de contenido para entrenar modelos en constante evolución. Han generado controversia, ya que no todos los bots y rastreadores cumplen con las directrices establecidas por los propietarios de contenido para limitar la actividad de rastreo”. El documento sugiere que una proporción significativa del tráfico en línea parece depender ahora de estos sistemas automatizados, lo que resulta aún más preocupante.

Por otro lado, a inicios de año, los rastreadores de contenido no basados en IA fueron responsables de la mitad de las solicitudes a páginas HTML, un volumen que superó en siete puntos porcentuales al generado por los usuarios humanos. Esta diferencia se amplió hasta 25 puntos porcentuales a principios de junio. Aunque la brecha comenzó a reducirse en los meses posteriores, la distancia entre ambos grupos se mantuvo relativamente estrecha: a partir del 2 de diciembre, el tráfico humano representó el 47% de las solicitudes HTML, mientras que los bots no asociados a IA generaron el 44%, según el informe.

A este panorama se suma la participación de los bots de IA, que representaron en promedio el 4.2% del total de solicitudes a páginas HTML registradas a lo largo del año. A principios de abril, este indicador alcanzó un mínimo de 2.4%, mientras que a finales de junio llegó a una participación máxima de 6.4%.

Tráfico online al servicio de la IA

El reporte señala que la mayoría de los bots de IA se emplean con tres propósitos específicos: entrenamiento, para recopilar contenido de sitios web y entrenar modelos de IA; búsqueda, para indexar información y habilitar funciones de búsqueda dentro de las plataformas de IA, y acciones del usuario, para consultar páginas en respuesta a preguntas planteadas a un chatbot.

“El rastreo destinado al entrenamiento de modelos es responsable de la gran mayoría del tráfico generado por rastreadores de IA, alcanzando hasta siete u ocho veces el volumen del rastreo para búsquedas y hasta 32 veces el correspondiente a acciones de los usuarios en los periodos de mayor actividad. El volumen de tráfico asociado al entrenamiento está fuertemente influenciado por GPTBot, de OpenAI”, precisa el documento.

Por su parte, el rastreo orientado a la búsqueda se mantuvo como el objetivo predominante hasta mediados de marzo, momento en el que se redujo aproximadamente en un 40%. En contraste, el rastreo vinculado a acciones de los usuarios fue el que registró el mayor crecimiento, al multiplicarse por más de 21 veces entre enero y principios de diciembre.

“Los bots de IA han aparecido con frecuencia en los titulares a lo largo del año, a medida que los propietarios de contenido manifiestan su preocupación por la magnitud del tráfico que generan, especialmente porque una parte considerable de este no se traduce en visitas de usuarios finales a los sitios web de origen”, reitera el informe.

Finalmente, el análisis muestra un aumento generalizado del tráfico generado por bots y rastreadores para todos los fines. Googlebot se mantuvo, por tercer año consecutivo, como líder al concentrar más del 28% del tráfico de bots verificados en 2025. De manera individual, originó el 4.5% del total de solicitudes HTML registradas durante el año.

El GPTBot de OpenAI se posicionó como el segundo bot más activo, al generar alrededor del 7.5% del tráfico de bots verificados. En tanto, ChatGPT-User, que accede a páginas web cuando los usuarios realizan consultas en ChatGPT, mostró un crecimiento sostenido a lo largo del año, con picos de solicitudes que en algunos momentos fueron hasta 16 veces superiores a los registrados a inicios de 2025. Por su parte, el rastreo de ClaudeBot cerró el año cerca de un 10% por encima de su nivel inicial, mientras que PerplexityBot concluyó aproximadamente 3.5 veces por encima de su punto de partida.

Estos hallazgos se dan a conocer en un contexto en el que diversos actores de la industria editorial y de producción de contenidos han denunciado el uso indebido de sus publicaciones por parte de empresas tecnológicas para entrenar modelos de IA. El malestar no se limita al aprovechamiento de contenidos con fines de entrenamiento, sino que también se relaciona con ciertas funciones basadas en IA que, según los editores, reducen la probabilidad de que los usuarios visiten los sitios web originales, lo que limita sus oportunidades de generar ingresos publicitarios.

Data Provenance Initiative, un colectivo encabezado por el Instituto de Tecnología de Massachusetts, sostiene que editores y plataformas informativas en línea están adoptando medidas más estrictas para impedir que sus publicaciones sean utilizadas en la capacitación de productos como Gemini o ChatGPT. Como consecuencia de estas acciones, se ha restringido el acceso al 5% de los contenidos que antes eran públicos y el 25% de los datos considerados de mayor calidad se ha vuelto inaccesible.