Gadgetsven: Ataque Rowhammer en GPUs NVIDIA con GDDR6: así afecta a la seguridad de tus sistemas

Ataque Rowhammer en GPUs NVIDIA con GDDR6

Una vieja conocida del mundo de la ciberseguridad, la vulnerabilidad Rowhammer, ha dado el salto definitivo a las tarjetas gráficas modernas. Lo que antes se consideraba un problema principalmente asociado a la memoria RAM de la CPU, hoy se extiende a las GPUs NVIDIA equipadas con memoria GDDR6, abriendo un frente de riesgo que afecta tanto a usuarios avanzados como a empresas y proveedores de nube.

Varios equipos de investigación académica han demostrado que es posible aprovechar esta debilidad física de la memoria para pasar de un simple programa sin privilegios en la GPU a un control prácticamente absoluto del sistema operativo. Este avance coloca a las tarjetas gráficas, clave en entornos de IA, centros de datos y estaciones de trabajo en Europa y España, en el punto de mira de administradores de sistemas y responsables de seguridad.

Qué es Rowhammer y por qué ahora golpea a las GPUs NVIDIA con GDDR6

El ataque Rowhammer se basa en un fenómeno físico: al acceder de forma muy rápida y repetida a determinadas filas de memoria DRAM, se generan perturbaciones eléctricas que provocan cambios de bits (bit-flips) en filas adyacentes. Esos cambios de 0 a 1 o de 1 a 0 permiten, en condiciones controladas, alterar datos sensibles y saltarse mecanismos de aislamiento de memoria.

Este comportamiento se documentó por primera vez en profundidad en memorias DDR3, y con el tiempo se vio que también era posible en DDR4 e incluso se estudia para DDR5. Lo novedoso ahora es que dos líneas de trabajo independientes han demostrado que la misma idea funciona sobre memoria gráfica GDDR6 en GPUs NVIDIA, un tipo de hardware presente en una gran cantidad de equipos de sobremesa, estaciones profesionales y servidores.

Los investigadores han confirmado que, en tarjetas basadas en las arquitecturas Ampere y Ada Lovelace, la manipulación de las celdas de GDDR6 puede inducir miles de cambios de bit controlados. En pruebas de laboratorio, una GeForce RTX 3060 llegó a registrar en torno a 1.100 alteraciones de bits, mientras que una RTX A6000 y una RTX 6000 “Ada” mostraron también un número significativo de vulnerabilidades aprovechables.

La clave de este salto cualitativo es que ya no hablamos solo de degradar el rendimiento o alterar puntualmente una red neuronal, sino de ataques completos capaces de tomar el control de la máquina anfitriona. Es decir, desde la propia GPU se puede llegar a modificar cómo se gestiona la memoria del sistema y escalar privilegios hasta obtener acceso de administrador o root.

GDDRHammer y GeForge: ataques Rowhammer que dan control total desde la GPU

Dos de las cadenas de ataque más estudiadas hasta ahora, GDDRHammer y GeForge, han confirmado que Rowhammer en GDDR6 no es una curiosidad académica, sino un riesgo real para sistemas con GPUs NVIDIA modernas. Ambos trabajos se centran en corromper las tablas de páginas que gestiona la unidad de memoria de la GPU para acceder a zonas de memoria que en teoría están protegidas.

En el caso de GDDRHammer, los investigadores analizaron 25 modelos de tarjetas NVIDIA con GDDR6, incluyendo dispositivos profesionales de las familias Ampere y Ada. Descubrieron que las filas de memoria DRAM en estas GPUs siguen una disposición geométrica no monótona, lo que permite diseñar patrones de hammering de doble cara muy efectivos incluso cuando las direcciones físicas parecen alejadas entre sí.

Para maximizar el número de activaciones de filas y aumentar los bit-flips, GDDRHammer asigna distintos bancos de memoria a multiprocesadores de transmisión independientes dentro de la tarjeta gráfica, coordinando parcialmente su ejecución para esquivar las políticas internas de muestreo y refresco. Esta combinación de patrones y sincronización se traduce en una tasa de alteraciones de bits muy superior a la de trabajos previos, con medias que superan el millar de cambios por gigabyte en algunos modelos.

GeForge, por su parte, introduce patrones de hammering no uniformes en el tiempo que consiguen evadir las mitigaciones de actualización de filas objetivo (TRR) que incorpora la memoria GDDR6. Variando intensidad, distribución y orden de los accesos, los atacantes son capaces de forzar bit-flips sin que el hardware active sus mecanismos de protección.

El siguiente paso en ambas cadenas de ataque consiste en dirigir esos bit-flips hacia las estructuras de gestión de memoria de la GPU. Mediante técnicas de “masajeo de memoria”, los exploits llenan y vacían asignaciones hasta forzar que las tablas de páginas jerárquicas acaben ocupando posiciones físicas reconocidas como vulnerables. Una vez allí, basta un único bit cambiado en el puntero adecuado para redirigir la traducción de direcciones hacia tablas falsificadas controladas por el atacante.

GPUBreach: tercera ruta de ataque que combina Rowhammer y fallos de controlador

Sobre este terreno se suma un tercer vector, GPUBreach, presentado como el tercer ataque Rowhammer plenamente funcional sobre GPUs. A diferencia de los anteriores, que dependen críticamente de cómo se asigna y refresca la memoria GDDR6, GPUBreach combina el martilleo de celdas con vulnerabilidades en los controladores de NVIDIA, lo que le permite ir un paso más allá en determinadas configuraciones.

Este ataque se ha probado de forma específica en una NVIDIA RTX A6000, una tarjeta de gama profesional muy presente en estaciones de trabajo de diseño, simulación o IA utilizadas en empresas europeas. En los experimentos de laboratorio, GPUBreach logró comprometer el kernel del sistema operativo directamente desde la GPU, a pesar de que el sistema tenía activada la protección IOMMU, que en teoría debería limitar lo que puede ver y modificar la tarjeta gráfica.

La cadena de explotación de GPUBreach arranca, de nuevo, con la corrupción de tablas de páginas internas de la GPU. A partir de ahí, aprovecha fallos recientes en los controladores para escalar privilegios y ejecutar operaciones de lectura y escritura sobre la memoria principal del host. El resultado práctico es que un código aparentemente inocuo y sin privilegios en la GPU puede convertirse en una puerta trasera capaz de acceder a cualquier dato o proceso del sistema.

Lo especialmente preocupante de GPUBreach es que muestra cómo incluso sistemas con IOMMU activo pueden ser vulnerables si el software que gestiona el hardware (en este caso, los controladores de GPU) introduce sus propios errores de seguridad. Esto obliga a mirar no solo a la memoria y a la arquitectura de la tarjeta, sino también al ecosistema de drivers y librerías que se desplegan en servidores y estaciones de trabajo.

De la GPU a la CPU: cómo se logra el acceso a la memoria del sistema anfitrión

Más allá de las diferencias técnicas entre GDDRHammer, GeForge y GPUBreach, todas las investigaciones coinciden en un mismo punto: el objetivo final es llegar a la memoria de la CPU y tomar el control del sistema anfitrión. Para ello, los atacantes explotan cómo la GPU gestiona las direcciones de memoria y cómo se comunican GPU y CPU a través del bus PCIe.

Una vez que se consigue corromper las tablas de páginas internas de la tarjeta gráfica, el atacante puede modificar campos que indican si una dirección física se refiere a memoria local de la GPU o memoria del host. Alterando estos bits en entradas falsificadas, las operaciones de lectura y escritura realizadas por la GPU se redirigen de forma transparente hacia la RAM principal del equipo, sin pasar por los controles habituales de la CPU.

Esta vía de acceso directo elude mecanismos como la gestión de memoria de la CPU y las protecciones de copia en escritura del sistema operativo. En una demostración práctica, los investigadores consiguieron sobrescribir el segmento de código de una biblioteca estándar de C directamente en la memoria del host, inyectando código máquina en una función muy utilizada (por ejemplo, la rutina de cierre de registro) que después fue ejecutada por un programa legítimo con privilegios elevados.

Al encadenar estos pasos, un proceso sin privilegios que se ejecuta en la GPU obtiene finalmente una consola de superusuario (root) en el sistema operativo central. Desde ese punto, cualquier dato, aplicación o servicio queda al alcance del atacante, lo que equivale a un compromiso total del equipo, tanto en estaciones de trabajo individuales como en servidores compartidos.

Los estudios subrayan que, por la forma en que se gestiona la memoria en estas tarjetas, los antivirus y herramientas de seguridad tradicionales apenas tienen visibilidad sobre lo que ocurre dentro de la GPU. Esto hace que los ataques pasen desapercibidos para muchas soluciones desplegadas hoy en empresas, centros de datos y entornos de investigación en Europa.

Modelos afectados, alcance real y situación en entornos europeos

Hasta el momento, las investigaciones han identificado de manera explícita varias familias de tarjetas. Entre los modelos de consumo, la GeForce RTX 3060 aparece una y otra vez como ejemplo de GPU vulnerable a los patrones de Rowhammer descritos. Entre las soluciones profesionales, destacan las RTX A6000 y RTX 6000 con memoria GDDR6, muy presentes en estaciones de trabajo y servidores de empresas de sectores como la ingeniería, el audiovisual o la investigación científica.

Los equipos de GDDRHammer y GeForge han probado al menos 25 modelos con GDDR6, indicando que una gran mayoría de las tarjetas de gama alta basadas en Ampere y Ada presentan distintos grados de susceptibilidad a los nuevos patrones de hammering. Sin embargo, aún no existe una lista pública exhaustiva de todas las GPUs afectadas, por lo que la recomendación general es asumir riesgo potencial en “cualquier sistema con GDDR6” hasta que NVIDIA publique información más detallada.

En el lado más tranquilizador, las pruebas actuales apuntan a que las memorias GDDR6X y GDDR7, así como soluciones como HBM2 y HBM3 con protección On-Die ECC, no muestran el mismo comportamiento bajo estos ataques concretos. No obstante, los propios investigadores admiten que la ausencia de evidencias no equivale a una garantía absoluta, especialmente en un contexto donde la investigación siempre va algo por detrás del lanzamiento de nuevos productos.

Para España y el resto de Europa, el impacto potencial se concentra en tres frentes: centros de datos y plataformas de nube que reutilizan GPUs entre múltiples clientes, estaciones de trabajo profesionales en empresas de ingeniería, IA y diseño, y laboratorios y universidades que emplean aceleradores NVIDIA con GDDR6 para carga intensiva. En estos entornos, la combinación de acceso compartido y alta criticidad de los datos hace que un fallo de este tipo pueda tener consecuencias graves.

En equipos domésticos y de gaming, el riesgo inmediato se considera más reducido, sobre todo porque estos ataques requieren un conocimiento técnico profundo, condiciones controladas y tiempo de ejecución prolongado. Aun así, el hecho de que una GPU relativamente común como la RTX 3060 esté en la lista de modelos vulnerables debería servir como llamada de atención para quienes reutilizan este hardware en servidores caseros, laboratorios o pequeños entornos de virtualización.

Mitigaciones disponibles: IOMMU, ECC y buenas prácticas de seguridad

Ante la imposibilidad de “parchear” por software una propiedad física de la memoria, las recomendaciones actuales se centran en limitar lo que la GPU puede ver y corregir los errores antes de que se exploten. Dos medidas aparecen de forma reiterada en todos los estudios: activar IOMMU y habilitar ECC cuando sea posible.

La Unidad de Gestión de Memoria de Entrada/Salida (IOMMU) actúa como un filtro entre dispositivos como la GPU y la memoria del host. Cuando está activada en la BIOS o en la configuración del sistema, mapea las direcciones visibles para el dispositivo hacia marcos de página concretos, restringiendo el acceso a regiones específicas. En teoría, esto dificulta que un atacante pueda redirigir operaciones de la GPU hacia zonas sensibles de RAM.

Sin embargo, la práctica es algo más matizada. Varios estudios han mostrado exploit funcionales contra una RTX A6000 con IOMMU habilitada, demostrando que no se trata de una barrera absoluta. Además, en muchos sistemas Linux comerciales, sobre todo en servidores y estaciones de trabajo, la IOMMU viene desactivada por defecto por motivos de compatibilidad o rendimiento, lo que deja un número considerable de máquinas expuestas sin que sus administradores necesariamente sean conscientes de ello.

La segunda línea defensiva es el uso de ECC (código de corrección de errores) en la memoria de la GPU. Activar ECC permite detectar y corregir errores de un solo bit antes de que se conviertan en bit-flips explotables, reduciendo significativamente la fiabilidad de los ataques Rowhammer. NVIDIA ofrece opciones para habilitar ECC, sobre todo en tarjetas de estación de trabajo y soluciones de centro de datos.

El problema es doble: por un lado, ECC implica pérdida de rendimiento y reducción de memoria disponible, algo que muchos entornos profesionales han evitado para exprimir al máximo su hardware. Por otro, existen técnicas de Rowhammer más agresivas que pueden generar alteraciones en más de un bit, capaces de esquivar parcialmente las defensas basadas en ECC. De nuevo, no es una solución perfecta, pero sí una capa adicional que complica la vida al atacante.

Más allá de estas dos medidas, los expertos recomiendan seguir de cerca las actualizaciones de seguridad y boletines de NVIDIA, especialmente aquellos publicados a raíz de investigaciones previas como GPUHammer y ahora de los trabajos sobre GDDRHammer, GeForge y GPUBreach. Para organizaciones en España y Europa, resulta clave integrar estos avisos en sus procesos de gestión de vulnerabilidades y no tratarlos solo como curiosidades académicas.

Consejos prácticos para empresas, nube y usuarios avanzados

Para administradores de sistemas y responsables de seguridad en empresas europeas que dependen de GPUs NVIDIA con GDDR6, la principal prioridad es evaluar el nivel de exposición actual. Esto implica revisar qué modelos están desplegados, en qué entornos se utilizan y si se comparten entre múltiples usuarios o clientes, como ocurre en muchas plataformas de nube y centros de datos.

En entornos de nube privada, HPC o IA donde las mismas tarjetas se reutilizan entre distintos proyectos o departamentos, conviene considerar políticas más estrictas, como dedicar GPUs concretas a cargas especialmente sensibles o agrupar en nodos separados a clientes con diferentes perfiles de riesgo. También tiene sentido revisar la configuración de la BIOS para asegurarse de que IOMMU está activada siempre que sea viable y documentar claramente los casos en los que no pueda habilitarse.

Para estaciones de trabajo profesionales, tanto en España como en otros países europeos, es recomendable revisar si los equipos cuentan con GPUs RTX A6000, RTX 6000 u otras Ampere/Ada con GDDR6 y valorar seriamente la activación de ECC, especialmente cuando estas máquinas acceden a información sensible o forman parte de infraestructuras críticas. Aunque suponga una pequeña penalización de rendimiento, el beneficio en términos de seguridad puede compensar con creces.

Los proveedores de servicios gestionados y empresas de hosting que ofrecen servidores con GPU deberían actualizar sus guías de endurecimiento y plantillas de configuración para incluir de forma explícita el uso de IOMMU, la revisión del estado de ECC y la aplicación rápida de parches de drivers de NVIDIA. Esta tarea es especialmente relevante en el contexto europeo, donde las regulaciones de protección de datos y ciberseguridad exigen medidas proporcionadas al nivel de riesgo.

Para usuarios avanzados y entusiastas que emplean GPUs de consumo como la RTX 3060 en servidores caseros, laboratorios de virtualización o proyectos de IA en el hogar, la recomendación general pasa por mantener los controladores siempre al día, limitar el acceso remoto a estas máquinas y evitar ejecutar código no confiable en la GPU. Aunque la probabilidad de explotación en este tipo de entornos es baja, adoptar buenas prácticas de aislamiento y actualización ayuda a reducir aún más la superficie de ataque.

Con todo lo anterior, la foto que se dibuja es la de una amenaza real, pero aún muy ligada a entornos donde se combinan hardware potente, cargas compartidas y un alto valor de los datos. Rowhammer en GPUs NVIDIA con GDDR6 no es un motivo para el pánico entre usuarios domésticos, pero sí una llamada clara para que empresas, centros de datos y administradores en España y Europa revisen la seguridad de sus infraestructuras gráficas, ajusten configuraciones como IOMMU y ECC, y se mantengan atentos a las investigaciones y parches que seguirán llegando en los próximos años.

from Actualidad Gadget https://ift.tt/GJBVnTf
via IFTTT