Increíble Aumento de Rendimiento en IA para GPU RTX de NVIDIA con su Último Driver

El nuevo driver de NVIDIA representa un avance significativo en el rendimiento de la IA para las tarjetas gráficas RTX.

Un Cambio Revolucionario

¿Te imaginas mejorar hasta 3 veces el rendimiento de tus tareas de Inteligencia Artificial (IA) con tan solo un nuevo driver? Pues bien, eso es exactamente lo que NVIDIA ha logrado con su reciente lanzamiento. Aunque inicialmente el nuevo driver 555.85 WHQL parecía no traer grandes novedades, un detalle oculto en las notas de lanzamiento revela una mejora impresionante en el rendimiento de las GPU RTX de la compañía.

El Secreto Revelado

Mientras que las notas de lanzamiento del nuevo driver parecían poco emocionantes, NVIDIA compartió en su blog la verdadera joya del nuevo software: un aumento de rendimiento de hasta 3 veces en tareas de IA para las GPU RTX. Pero, ¿en qué áreas específicas se produce esta mejora?

Según lo anunciado en la conferencia Microsoft Build, NVIDIA ha integrado nuevas optimizaciones de rendimiento para la IA en Windows en sus GeForce RTX, así como en estaciones de trabajo con RTX. Aunque esta información no se refleja en las notas de lanzamiento del driver, las mejoras son realmente impresionantes para cualquier persona que trabaje con IA en la actualidad.

Optimizaciones Clave

Las mejoras se centran en tres áreas muy conocidas en el ámbito de la IA: ONNX Runtime (ORT), DirectML y WebNN. En particular, se destaca la actualización de la extensión de IA generativa para ORT lanzada por Microsoft, que es una biblioteca multiplataforma para inferencia.

Al unir ORT con DirectML, que es compatible con varios tipos de hardware, se crea un camino más fácil para los desarrolladores de IA en Windows. Estas optimizaciones no solo se aplican a los Game Ready, sino que NVIDIA afirma que también están implementadas en Studio y RTX Enterprise, beneficiando a todas las GPU.

Resultados Impactantes

Las mejoras son evidentes al observar el rendimiento de modelos específicos, como Phi-3, Llama 3, Gemma y Mistral. Aunque las mejoras varían según el modelo y la tarea, NVIDIA afirma un aumento de hasta 3 veces en el rendimiento para algunos cálculos, como FP16 e INT4.

Optimizaciones Específicas

El nuevo driver también introduce una serie de optimizaciones específicas que contribuyen al impresionante aumento de rendimiento:

  • Soporte para el metacomando DQ-GEMM para manejar la cuantificación de solo peso INT4 para LLM.
  • Nuevos métodos de normalización RMSNorm para los modelos Llama 2, Llama 3, Mistral y Phi-3.
  • Mecanismos de atención grupal, multiconsulta y ventana corrediza de atención para apoyar a Mistral.
  • Actualizaciones de KV in situ para mejorar el rendimiento de la atención.
  • Soporte para GEMM de tensores no múltiplos de 8 para mejorar el rendimiento de la fase de contexto.
Artículos relacionados...