AI Flood y como la Web está en peligro

IA Flood: el nuevo ataque que está tumbando las webs españolas (y no es por falta de tráfico)

Recientemente, ObservatorioBlockchain fue víctima de un enorme nivel de visitas de bots de IA, una AI Flood o inundación por IA, una situación que nuestro antiguo hosting fue incapaz de manejar, llevándonos a estar fuera de línea por un par de días. El nivel de visitas fue bastante masivo, en menos de 12 horas, nuestra Web recibió más de 12 mil visitas de bots, lo que llevo a nuestro proveedor de servicio a “tumbar” nuestra Web.

Este primer intento, lo “resolvimos” usando Cloudflare, un servicio que muchos conocerán y del que hablaremos más adelante. Pero decimos “resolvimos”, porque incluso con las protecciones activadas, seguimos sufriendo los ataques de crawling y sus consecuencias. Sí, ataque, porque la segunda caída fue debido a más de 20 mil visitas de bots de IA en menos de 10 horas, lo que es una total locura, y que llevo, por segunda vez, a que nuestro hosting tirase nuestro sitio para «no afectar al resto de clientes de sus servicios».

Los hostings no están preparados para la era de la IA

Y aquí empieza nuestro viaje, con una primera lección: la mayoría de los hostings Web no están preparados para la era de la IA. Los hostings son la forma más sencilla de poner a andar una Web. Contratas el servicio, lo configuras y te olvidas del resto. No hay que mantener servidores, no hay que andar complicándose con instalaciones, ni pelear con stacks de tecnologías. Es «conectar y andar», por lo que mucha gente usa estos servicios para tener sus webs sin complicarse.

El problema es que la Web ha cambiado mucho en los últimos 20 años, y el cambio más brutal ha sido el de la IA. Hace 20 años, tu mayor anhelo era que el bot spider de Google visitará tu web, para que pudieras aparecer en el buscador. En ese entonces, si tu sitio era grande y estabas siendo indexado, podías ver un pequeño “tirón”, en tu Web mientras esto pasaba. Normal, duraba unos pocos minutos, y al poco ya aparecías en Google Search. Felicidad, tu trabajo daba frutos, y los hostings, ganaban dinero por tener clientes felices y sitios Web de alcance global.

Pero la IA lo ha cambiado todo. Sus bots parecen tener un problema de hiperactividad crónica. No solo visitan tu Web un par de veces al día, sino que pueden directamente, descargar todo tu sitio Web en una sola tirada. No solo van por el contenido textual de tu Web, es que quieren incluso todo multimedia que haya en la misma.

Más de 10.000 bots de IA visitan Observatorio Blockchain en solo 24 horas

El caso de Arsys

¿Resultado? Los hostings acostumbrados al tráfico medio-pesado, se ven en medio de un alud de peticiones que los sobrepasan y para evitar problemas, tiran tu sitio. Todo porque no tienen las herramientas necesarias para, desde sus propias infraestructuras, evitar que las IAs hagan estas acciones, y así ayudar a quienes no quieren complicarse la vida con soluciones de seguridad externas.

Este fue nuestro caso con Arsys, una empresa española con larga trayectoria en el mundo del hosting. Observatorio Blockchain ha vivido en las entrañas de Arsys desde su creación, pero en medio de este alud de IA, nos han tirado el sitio en 3 ocasiones. Somos un sitio de noticias, así que estar offline por días, nos afecta a nosotros y a nuestros lectores. Y las soluciones de Arsys a este problema eran un copy-paste de manual: «Usen Cloudflare para solucionar el problema de los ataques de bots», pero el ataque continuaba pese a ello. Y no era poca cosa, todos los bots y casi cualquier User-Agent (identificado de navegador) está bloqueado, pero parecía insuficiente.

Quizá la infraestructura de Arsys no pueden proteger de forma rápida y efectiva sitios pequeños contra el alud de la IA y, por eso, tomamos la decisión de migrar a un servicio de VPS, para mejorar nuestros recursos, instalar nuestro propio stack de servicios y medidas de seguridad.

Damos las gracias a Arsys por acompañarnos en este viaje, pero también le hacemos un llamado: Actualicen sus infraestructuras y creen soluciones integradas para este tipo de problemas, porque cuanto más pase el tiempo, peor será la situación, y eso puede llevarles a perder muchos clientes, tal como ha pasado con nosotros.

Cloudflare, España y LaLiga

Ya puestos en la instalación de nuestro VPS y la activación de nuestro sitio Web (casi 60 Gb de información), pudimos hacer funcionar todo perfectamente, con mejoras de seguridad debido al uso exclusivo de soluciones como Tunnel y WAFs/Zero Trust, de Cloudflare. Eso fue el día viernes pasado (6 de marzo) y lo celebramos. Hasta que nos tocó otro desastre.

Si eres un sysadmin en España o «un friki» como dice Javier Tebas Medrano, entenderás que LaLiga parece que tiene pleno poder sobre qué puedes ver o no ver en Internet, tras las resoluciones judiciales, que le permiten filtrar varias IPs de Cloudflare. El problema con esto es fácil de ver: si baneas IPs de Cloudflare, sitios que dependen de ese servicio se hacen inaccesibles, incluso si no tienen nada que ver con streaming de fútbol.

Quién vigila a BossIA: el fin de la obediencia humana

Así, gracias al fútbol del fin de semana, el sábado 7 de marzo, Observatorio Blockchain fue  bloqueado por los absurdos bloqueos de LaLiga. Toco solventar ese problema, y para la tarde logramos hacer un equilibrio entre ambas cosas: usar Cloudflare y sus medidas seguridad para evitar la gran mayoría de bots de IA empresariales y de uso personal, y no estar bloqueados por los frikis de LaLiga y compañía. Bloqueos que por ejemplo, tumban webs enteras de Gobierno, como el de Aragon. Imaginamos que ellos también piratean el fútbol.

La IA y su glotonería de datos

Hecho esto, tenemos todo el fin de semana funcionando sin problemas. Salvo cosas puntuales de ajuste de nuestras medidas de seguridad en Cloudflare, la Web funciona perfectamente para un WordPress. Y los resultados están a la vista. Una carga Web más rápida, recursos para atender a nuestros visitantes sin problemas, y la IA lejos de nuestro contenido.

La era agéntica: el software que entiende objetivos y ejecuta sin humanos

De hecho, solo en las últimas 24 horas, hemos bloqueado a más de 10.500 bots de IA, en sus intentos de crawlear nuestra Web. Sí hacemos una media rápida, eso nos pone cerca de unas 40-50 mil visitas de bots en los últimos 3 días, sin contar los picos de IA que llevaron a la caída de nuestra web. Una demostración más de la glotonería de la IA, que dicho sea de paso, no paga nada por ellos, pero te cobra a precio de oro cuando le pides un servicio.

La muerte lenta de la Web

Lo peor, es que en el proceso, «matan» el origen de los datos, porque las webs poco a poco están perdiendo visitas por la IA. Así, se crea un ciclo tóxico: las IA crawlean contenido sin importarles nada más, las webs se saturan por bots y no por usuarios, siendo que estos últimos se han ido a las IA y su propuesta de «pregunta, yo contesto». En medios, los blogs pierden, y las empresas de IA se llenan los bolsillos con el trabajo del resto.

Por ello, no nos pesan las medidas de seguridad que hemos puesto en Cloudflare, y ver la estadística de bots bloqueados. Nuestro interés y trabajo está en que la gente nos lea, no en que un bot de IA genere dinero con trabajo ajeno, y quizás sea algo que muchos sitios deberían empezar a duplicar.

Comparte esto: