Los datos del Crawl Common se utilizan para entrenar modelos de lenguaje de gran escala (LLM) de organizaciones prominentes como OpenAI, Google y Meta. En su investigación, Truffle Security analizó 400 terabytes de datos provenientes de 2.67 mil millones de páginas web en el archivo de diciembre de 2024, encontrando 11,908 secretos que se autentican con éxito. Esto sugiere que los modelos de IA están siendo entrenados en código que puede ser inseguro o vulnerable.
Es importante resaltar que aunque los datos de entrenamiento de los modelos no se usan en su forma cruda y suelen pasar por un proceso de preprocesamiento, es un desafío eliminar toda la información confidencial de un conjunto de datos de tal magnitud. Dicho proceso tampoco asegura la eliminación completa de datos de identificación personal (PII), datos financieros o información médica.
Truffle Security identificó varios tipos de secretos entre los hallazgos, siendo las claves API de MailChimp las más comunes. El informe destaca que casi 1,500 claves únicas de API de MailChimp estaban codificadas en HTML y JavaScript, lo que se considera una mala práctica de codificación. Los investigadores advierten que un atacante podría utilizar estas claves para llevar a cabo actividades maliciosas, como el phishing y suplantación de marca, lo que podría resultar en la exfiltración de datos.
Otro hallazgo significativo del estudio es la alta tasa de reutilización de los secretos descubiertos. Aproximadamente el 63% de estos secretos estaban presentes en varias páginas. Un caso particular es el de una clave API para Walkscore que apareció 57,029 veces en 1,871 subdominios. Además, los investigadores encontraron una página que contenía 17 Webhooks únicos en vivo. Estos enlaces son cruciales para la comunicación entre aplicaciones y su exposición puede llevar a que intrusos publiquen mensajes indeseados en plataformas como Slack.
Truffle Security también se encargó de contactar a los proveedores afectados, ayudando a revocar y rotar miles de claves comprometidas. A pesar de que un modelo de IA podría utilizar datasets más antiguos que el escaneado por los investigadores, este análisis subraya el riesgo potencial que las malas prácticas de codificación pueden presentar para la seguridad y la integridad de los modelos de lenguaje.
En conclusión, los hallazgos de Truffle Security no solo demuestran la existencia de una cantidad sorprendente de secretos expuestos en el Crawl Common, sino que también advierten sobre las implicaciones que esto puede tener para el uso de IA y la necesidad de adoptar prácticas de codificación más seguras. La investigación resalta la importancia de la responsabilidad en el manejo de datos sensibles y la continua necesidad de protección ante la exposición de información crítica en el ecosistema digital. Las implicaciones de estas vulnerabilidades resaltan la importancia de mejorar las prácticas de seguridad en el desarrollo de software para proteger tanto a los usuarios como a las organizaciones.
Enlace de la fuente, haz clic para tener más información