Casi 12,000 claves y contraseñas de API que se encuentran en el conjunto de datos de capacitación de IA

Recientemente, investigadores de Truffle Security han descubierto cerca de 12,000 secretos válidos, que incluyen claves API y contraseñas, en un vasto conjunto de datos conocido como el «Crawl Common». Este repositorio, mantenido por la organización sin fines de lucro del mismo nombre, alberga petabytes de datos web recopilados desde 2008 y está disponible de forma gratuita para su uso por parte de diversos proyectos de inteligencia artificial (IA).

Los datos del Crawl Common se utilizan para entrenar modelos de lenguaje de gran escala (LLM) de organizaciones prominentes como OpenAI, Google y Meta. En su investigación, Truffle Security analizó 400 terabytes de datos provenientes de 2.67 mil millones de páginas web en el archivo de diciembre de 2024, encontrando 11,908 secretos que se autentican con éxito. Esto sugiere que los modelos de IA están siendo entrenados en código que puede ser inseguro o vulnerable.

Es importante resaltar que aunque los datos de entrenamiento de los modelos no se usan en su forma cruda y suelen pasar por un proceso de preprocesamiento, es un desafío eliminar toda la información confidencial de un conjunto de datos de tal magnitud. Dicho proceso tampoco asegura la eliminación completa de datos de identificación personal (PII), datos financieros o información médica.

Truffle Security identificó varios tipos de secretos entre los hallazgos, siendo las claves API de MailChimp las más comunes. El informe destaca que casi 1,500 claves únicas de API de MailChimp estaban codificadas en HTML y JavaScript, lo que se considera una mala práctica de codificación. Los investigadores advierten que un atacante podría utilizar estas claves para llevar a cabo actividades maliciosas, como el phishing y suplantación de marca, lo que podría resultar en la exfiltración de datos.

Otro hallazgo significativo del estudio es la alta tasa de reutilización de los secretos descubiertos. Aproximadamente el 63% de estos secretos estaban presentes en varias páginas. Un caso particular es el de una clave API para Walkscore que apareció 57,029 veces en 1,871 subdominios. Además, los investigadores encontraron una página que contenía 17 Webhooks únicos en vivo. Estos enlaces son cruciales para la comunicación entre aplicaciones y su exposición puede llevar a que intrusos publiquen mensajes indeseados en plataformas como Slack.

Truffle Security también se encargó de contactar a los proveedores afectados, ayudando a revocar y rotar miles de claves comprometidas. A pesar de que un modelo de IA podría utilizar datasets más antiguos que el escaneado por los investigadores, este análisis subraya el riesgo potencial que las malas prácticas de codificación pueden presentar para la seguridad y la integridad de los modelos de lenguaje.

En conclusión, los hallazgos de Truffle Security no solo demuestran la existencia de una cantidad sorprendente de secretos expuestos en el Crawl Common, sino que también advierten sobre las implicaciones que esto puede tener para el uso de IA y la necesidad de adoptar prácticas de codificación más seguras. La investigación resalta la importancia de la responsabilidad en el manejo de datos sensibles y la continua necesidad de protección ante la exposición de información crítica en el ecosistema digital. Las implicaciones de estas vulnerabilidades resaltan la importancia de mejorar las prácticas de seguridad en el desarrollo de software para proteger tanto a los usuarios como a las organizaciones.

Enlace de la fuente, haz clic para tener más información

Artículos y alertas de seguridad

Consultar más contenidos y alertas

Alertas y noticias de seguridad de la información

Contacta

Contacta con nosotros para obtener soluciones integrales en IT y seguridad de la información

Estamos encantados de responder cualquier pregunta que puedas tener, y ayudarte a determinar cuáles de nuestros servicios se adaptan mejor a tus necesidades.

Nuestros beneficios:
¿Qué sucede a continuación?
1

Programamos una llamada según tu conveniencia.

2

Realizamos una reunión de descubrimiento y consultoría.

3

Preparamos una propuesta.

Agenda una consulta gratuita