Casi 12,000 claves y contraseñas de API que se encuentran en el conjunto de datos de capacitación de IA

Recientemente, investigadores de Truffle Security han descubierto cerca de 12,000 secretos válidos, que incluyen claves API y contraseñas, en un vasto conjunto de datos conocido como el «Crawl Common». Este repositorio, mantenido por la organización sin fines de lucro del mismo nombre, alberga petabytes de datos web recopilados desde 2008 y está disponible de forma gratuita para su uso por parte de diversos proyectos de inteligencia artificial (IA).

Los datos del Crawl Common se utilizan para entrenar modelos de lenguaje de gran escala (LLM) de organizaciones prominentes como OpenAI, Google y Meta. En su investigación, Truffle Security analizó 400 terabytes de datos provenientes de 2.67 mil millones de páginas web en el archivo de diciembre de 2024, encontrando 11,908 secretos que se autentican con éxito. Esto sugiere que los modelos de IA están siendo entrenados en código que puede ser inseguro o vulnerable.

Es importante resaltar que aunque los datos de entrenamiento de los modelos no se usan en su forma cruda y suelen pasar por un proceso de preprocesamiento, es un desafío eliminar toda la información confidencial de un conjunto de datos de tal magnitud. Dicho proceso tampoco asegura la eliminación completa de datos de identificación personal (PII), datos financieros o información médica.

Truffle Security identificó varios tipos de secretos entre los hallazgos, siendo las claves API de MailChimp las más comunes. El informe destaca que casi 1,500 claves únicas de API de MailChimp estaban codificadas en HTML y JavaScript, lo que se considera una mala práctica de codificación. Los investigadores advierten que un atacante podría utilizar estas claves para llevar a cabo actividades maliciosas, como el phishing y suplantación de marca, lo que podría resultar en la exfiltración de datos.

Otro hallazgo significativo del estudio es la alta tasa de reutilización de los secretos descubiertos. Aproximadamente el 63% de estos secretos estaban presentes en varias páginas. Un caso particular es el de una clave API para Walkscore que apareció 57,029 veces en 1,871 subdominios. Además, los investigadores encontraron una página que contenía 17 Webhooks únicos en vivo. Estos enlaces son cruciales para la comunicación entre aplicaciones y su exposición puede llevar a que intrusos publiquen mensajes indeseados en plataformas como Slack.

Truffle Security también se encargó de contactar a los proveedores afectados, ayudando a revocar y rotar miles de claves comprometidas. A pesar de que un modelo de IA podría utilizar datasets más antiguos que el escaneado por los investigadores, este análisis subraya el riesgo potencial que las malas prácticas de codificación pueden presentar para la seguridad y la integridad de los modelos de lenguaje.

En conclusión, los hallazgos de Truffle Security no solo demuestran la existencia de una cantidad sorprendente de secretos expuestos en el Crawl Common, sino que también advierten sobre las implicaciones que esto puede tener para el uso de IA y la necesidad de adoptar prácticas de codificación más seguras. La investigación resalta la importancia de la responsabilidad en el manejo de datos sensibles y la continua necesidad de protección ante la exposición de información crítica en el ecosistema digital. Las implicaciones de estas vulnerabilidades resaltan la importancia de mejorar las prácticas de seguridad en el desarrollo de software para proteger tanto a los usuarios como a las organizaciones.

Enlace de la fuente, haz clic para tener más información

Artículos y alertas de seguridad

Consultar más contenidos y alertas

Threat Brief: CVE-2025-31324

LEER COMPLETO »

Seven Ice Webmaster mayo 11, 2025 No hay comentarios

Q1 2025 en el ciberespacio letón

LEER COMPLETO »

Seven Ice Webmaster mayo 10, 2025 No hay comentarios

El paquete NPM de la herramienta de raspado popular comprometido en el ataque de la cadena de suministro

LEER COMPLETO »

Seven Ice Webmaster mayo 10, 2025 No hay comentarios

Vulnerabilidades múltiples en productos Cisco

LEER COMPLETO »

Seven Ice Webmaster mayo 9, 2025 No hay comentarios

Aviso de seguridad de Google Chrome (AV25-257)

LEER COMPLETO »

Seven Ice Webmaster mayo 9, 2025 No hay comentarios

Código de práctica de seguridad de software: principios y reclamos de garantía (APC)

LEER COMPLETO »

Seven Ice Webmaster mayo 9, 2025 No hay comentarios

Alertas y noticias de seguridad de la información

Threat Brief: CVE-2025-31324

Executive Summary On April 24, 2025, SAP announced a severe vulnerability, designated CVE-2025-31324, with a CVSS score of 10.0, impacting the Visual Composer Framework in

...

Q1 2025 en el ciberespacio letón

Resumen del Informe sobre Amenazas Cibernéticas en Letonia (Q1 2025) En los tres primeros meses de 2025, el panorama de amenazas cibernéticas evoluciona de manera

...

El paquete NPM de la herramienta de raspado popular comprometido en el ataque de la cadena de suministro

Resumen sobre el Paquete Node.js Rand-User-Agent Rand-User-Agent es un paquete de Node.js que genera cadenas aleatorizadas de agentes de usuario, desarrollado inicialmente para la faceta

...

Vulnerabilidades múltiples en productos Cisco

Cisco ha identificado varias vulnerabilidades en sus productos que representan serios riesgos de seguridad. Entre estas vulnerabilidades, algunas permiten a un atacante ejecutar código de

...

Aviso de seguridad de Google Chrome (AV25-257)

Resumen de Aviso de Seguridad de Google para Chrome (9 de mayo de 2025) El 6 de mayo de 2025, Google emitió un importante aviso

...

Código de práctica de seguridad de software: principios y reclamos de garantía (APC)

El contenido se enfoca en la importancia de que los proveedores evalúen su cumplimiento con un código de práctica de seguridad del software. A continuación,

...

Carta semanal de CERT-SE V.19-CERT-SE

Resumen Semanal de Ciberseguridad – 9 de mayo de 2025 Introducción de Nueva Funcionalidad en el Servicio de Hormigas A partir de la próxima semana,

...

La identificación de nuestros servicios electrónicos está cambiando, habilitando los mensajes suomi.fi sugeridos durante la identificación

La agencia de transporte y comunicaciones de Finlandia, conocida como Traficom, juega un papel crucial en la garantía de un sistema de transporte y comunicaciones

...

Contacta

Contacta con nosotros para obtener soluciones integrales en IT y seguridad de la información

Estamos encantados de responder cualquier pregunta que puedas tener, y ayudarte a determinar cuáles de nuestros servicios se adaptan mejor a tus necesidades.

Nuestros beneficios:

¿Qué sucede a continuación?

Programamos una llamada según tu conveniencia.

Realizamos una reunión de descubrimiento y consultoría.

Preparamos una propuesta.

Casi 12,000 claves y contraseñas de API que se encuentran en el conjunto de datos de capacitación de IA

Consultar más contenidos y alertas

Alertas y noticias de seguridad de la información

Threat Brief: CVE-2025-31324

Q1 2025 en el ciberespacio letón

El paquete NPM de la herramienta de raspado popular comprometido en el ataque de la cadena de suministro

Vulnerabilidades múltiples en productos Cisco

Aviso de seguridad de Google Chrome (AV25-257)

Código de práctica de seguridad de software: principios y reclamos de garantía (APC)

Carta semanal de CERT-SE V.19-CERT-SE

La identificación de nuestros servicios electrónicos está cambiando, habilitando los mensajes suomi.fi sugeridos durante la identificación

Vulnerabilidad de negación de servicio de Microsoft Edge

ALERTA DE SEGURIDAD (A25-05-06): múltiples vulnerabilidades en productos Cisco

ElasticeSearch Kibana Arbitrary Code Execution Vulnerabilidad (CVE-2025-25014)-Qualys amenazas Protect

Los países comienzan el ejercicio de defensa cibernética de escudos cerrados de la OTAN

Mitsubishi Electric CC-Link, es decir, TSN

Nueva característica en hormigas: notificación sobre dispositivos comprometidos

Webinar: procedimientos básicos para emitir certificados

Contacta con nosotros para obtener soluciones integrales en IT y seguridad de la información

Nuestros beneficios:

¿Qué sucede a continuación?

Agenda una consulta gratuita

Servicios y soluciones

Compañía

Avisos legales

LinkedIn

Github

Twitter

Youtube

Inactive

Simplificando la seguridad de la información, en un mundo complejo.

Platform partnerships

Inactive

Servicios

Seguridad de la información

Respuesta a incidentes de seguridad

Protección contra amenazas avanzadas

Pentesting y simulación de ataques

Cifrado de datos y control de acceso

Cumplimientos normativos y formación