Como consecuencia de los avances de la IA generativa, cada vez hay más demanda de contenido que se utiliza para entrenar modelos o ejecutar inferencias. Así, uno de los métodos que utilizan las empresas para obtener datos nuevos es el 'web scraping' o raspado de datos en Internet.
En concreto, se trata de un proceso legal en el que un 'software' extrae el contenido HTML de sitios web para filtrar su información y almacenarla, recopilando así los datos necesarios para entrenar modelos de IA.
Aunque algunas compañías desarrolladoras de herramientas impulsadas por esta tecnología identifican los bots de raspado web que utilizan para obtener datos de internet, otras compañías no son tan transparentes. En este sentido, la firma estadounidense Cloudflare ha trasladado que sus clientes no quieren que los bots de IA visiten sus sitios web, especialmente, «aquellos que lo hacen de manera deshonesta».
De cara a ofrecer una solución a esta cuestión, la compañía enfocada a servicios de seguridad en Internet ha agregado una nueva función gratuita a sus servicios con la que bloqueará de forma automática todos los bots de IA que identifique en los sitios web, de manera que no puedan llevar a cabo el comentado raspado de datos.
Así lo ha dado a conocer Cloudflare en un comunicado en su web, en el que ha trasladado su intención de preservar una Internet segura para los creadores de contenido, evitando que los datos de los sitios web de sus clientes puedan ser recopilados y utilizados para entrenar IA.
Tal y como ha matizado, se trata de una herramienta que funciona «con un solo clic» y que está disponible para todos los clientes de Cloudflare, incluidos los que dispongan del nivel gratuito de su servicio, como su aplicación 1.1.1.1 o su plataforma SASE & SSE.
Para habilitarla, bastará con entrar en el apartado de 'Bots' dentro del menú de 'Seguridad' en su servicio. Tras ello, los usuarios deberán activar la opción 'Raspadores y rastreadores de IA', con lo que se comenzará a bloquear a los bots para que no raspen el contenido para aplicaciones de IA como el entrenamiento de modelos.
Igualmente, Cloudflare ha explicado que esta función se irá actualizando de forma automática para añadir nuevas huellas de bots infractores que hayan sido identificados como "rastreadores web de gran alcance para el entrenamiento de modelos«. Esto se llevará a cabo analizando el tráfico en su red, con lo que la compañía podrá tener un conocimiento »integral" de toda la actividad de los rastreadores de IA.
Bots de ia más utilizados actualmente
Junto con esta nueva función, la compañía también ha compartido algunos datos registrados en su plataforma respecto al uso de bots para llevar a cabo 'web scraping' actualmente.
Así, ha señalado que, según sus análisis, los bots más utilizados en su red han sido Bytespider de ByteDance -empresa matriz de TikTok-, Amazonbot de Amazon, ClaudeBot de Claude y GPTBot de OpenAI. Entre ellos, el bot Bytespider intentó acceder a un 40,40 por ciento de los sitios web clientes de Cloudflare.
De cerca le sigue GPTBot, que ha accedido a un 35,46 por ciento de sitios web para llevar a cabo raspado de datos. Por su parte, ClaudeBot desciende a un 11,17 por ciento de webs a las que ha tenido acceso.
No obstante, la compañía ha advertido que, a pesar de esta actividad por parte de los bots, es probable que muchos clientes "no sepan que los rastreadores de IA más populares están rastreando activamente sus sitios web".
De hecho, según ha indicado, el pasado mes de junio se identificó que los bots de IA accedieron a alrededor del 39 por ciento del millón de propiedades más importantes de Internet que utilizan Cloudflare, pero solo el 2,98 por ciento de estas webs tomaron medidas para bloquear esas solicitudes.
Con todo ello, Cloudflare ha asegurado que continuarán trabajando para ayudar a mantener Internet como un lugar donde los creadores de contenidos «puedan prosperar y mantener el control total sobre los modelos que se utilizan para entrenar o ejecutar inferencias con su contenido».
Este tipo de iniciativas también se están llevando a cabo por parte de otras plataformas, como es el caso de Reddit, que recientemente anunció que planea actualizar su Protocolo de Exclusión de Robots (archivo robots.txt) para bloquear el acceso de 'bots' automatizados a sus datos públicos y evitar así el llamado raspado de datos.
Sin comentarios
Para comentar es necesario estar registrado en Ultima Hora
De momento no hay comentarios.