Investigadores de Google DeepMind y de las universidades de Washington, Cornell, Carnagie Mellon, Berkeley y ETH Zurich han logrado extraer ?varios megabytes de datos de entrenamiento de ChatGPT por 200 dólares?, con un ataque ellos mismos califican de ?algo tonto?.
Este ataque consiste en indicar al modelo que repita una palabra, que en el caso de la investigación es 'poem' (poema). En su respuesta, ChatGPT muestra información como un correo electrónico y un número de teléfono reales ? de alguna entidad desprevenida?, como apuntan en el texto de su investigación.
Este ataque de extracción de datos se basa en que ?los modelos de imágenes y texto memorizan y regurgitan datos de entrenamiento?. Unas veces estos datos aparecen sin que nadie intente extraerlos, pero como ha demostrado la investigación, puede forzarse su aparición de una forma muy simple.
?Mostramos que esto es posible, a pesar de que este modelo [ChatGPT] solo está disponible a través de una API de chat y a pesar de que el modelo (probablemente) esté alineado para dificultar la extracción de datos?, explican.
El ataque es posible porque identifica una vulnerabilidad que permite saltarse las protección implementadas y que hace que el modelo ?escape de su procedimiento de alineación de ajuste y recurra a sus datos previos al entrenamiento?.
Para asegurarse de que los datos son auténticos y no creaciones del modelo, que a veces ocurre, los investigadores los cotejaron con 10GB de datos que descargaron de Internet y que ya existían antes de ChatGPT.
Sin comentarios
Para comentar es necesario estar registrado en Ultima Hora
De momento no hay comentarios.