Blog

El Web scraping y la Inteligencia Artificial

Friday, 31 of May of 2024

La Autoridad de Control de Protección de Datos Italiana, más conocida como el Garante, ha publicado recientemente un documento en el que recoge una serie de medidas que deben adoptar los responsables del tratamiento de sitios web para evitar el web scraping sobre datos personales.

El web scraping es un proceso automatizado que se usa para la extracción de datos de sitios web. Su aplicación a la inteligencia artificial consiste en la recopilación masiva de datos personales de un sitio web con el objetivo de entrenar modelos de inteligencia artificial generativa.

Así, con el web scraping surge un problema de protección de datos personales.

En este sentido, y en cumplimiento del art. 5 del RGPD, las medidas propuestas por el Garante para evitar el web scraping sobre datos personales son las siguientes:

1)     Creación de áreas a las que solo se pueda acceder previo registro sin que ello suponga un tratamiento excesivo de datos. De esta manera, lo que se busca es disminuir la cantidad de datos disponibles.

2)     Prohibir el scraping en los avisos legales, si bien este solo operaría ex-post o como elemento disuasorio. Esta, a diferencia de la anterior, más que una medida técnico-organizativa, es una medida especial-preventiva con efecto disuasorio.

3)     Limitar el tráfico de red y el número de solicitudes seleccionando únicamente aquellas provenientes de determinadas direcciones IP para evitar, a priori, un tráfico excesivo de datos.

4)     Limitar, en la medida de lo posible, el uso de bots para frenar la recopilación automática de datos (inclusión de CAPTCHA, uso de robot.txt., incorporación de contenidos que se quieren proteger dentro de archivos multimedia, etc.)

En conclusión, la IA generativa aporta grandes beneficios, sin embargo, el entrenamiento de sus modelos requiere del tratamiento de una gran cantidad de datos. En consecuencia, los responsables del tratamiento no pueden perder de vista la aplicación en todo momento de las disposiciones del RGPD, con especial atención, a la adopción de medidas de seguridad que resulten oportunas a cada caso.

Ver en medio original