NVIDIA ha anunciado una colaboración con OpenAI para llevar la nueva familia de modelos abiertos gpt-oss a los consumidores, permitiendo que una IA de última generación, antes exclusiva de centros de datos en la nube, pueda funcionar con velocidades increíbles en PCs y estaciones de trabajo equipadas con tecnología RTX. Este hito marca el inicio de una nueva era de IA local más rápida e inteligente, impulsada por GPUs GeForce RTX y RTX PRO.
Se han presentado dos variantes de los modelos gpt-oss para cubrir diferentes necesidades del ecosistema. El gpt-oss-20b, diseñado para PCs con al menos 16 GB de VRAM, ofrece hasta 250 tokens por segundo en una GPU RTX 5090. Por otro lado, el gpt-oss-120b, de mayor tamaño, está pensado para estaciones de trabajo profesionales aceleradas con GPUs NVIDIA RTX PRO, brindando un mayor poder de procesamiento para tareas avanzadas.
Ambos modelos fueron entrenados en GPUs NVIDIA H100 y son los primeros en soportar precisión MXFP4 en RTX, una técnica que mejora la calidad y precisión del modelo sin comprometer el rendimiento. También cuentan con uno de los contextos más extensos disponibles para inferencia local, alcanzando los 131,072 tokens, y están construidos sobre una arquitectura flexible de mixture-of-experts (MoE), con capacidades de chain-of-thought, instrucciones y uso de herramientas.
Para facilitar la adopción, NVIDIA ofrece varias opciones para comenzar a usar los nuevos modelos: la aplicación Ollama, que permite probarlos fácilmente con soporte nativo para GPUs RTX; Llama.cpp, optimizado con CUDA Graphs para mayor rendimiento; y Microsoft AI Foundry Local, que permite ejecutar el modelo con un simple comando en Windows, ampliando el acceso para desarrolladores y entusiastas de la IA.
El CEO de NVIDIA, Jensen Huang, destacó la importancia de este avance, señalando que “los modelos gpt-oss permitirán a los desarrolladores construir sobre una base de código abierto de última generación, fortaleciendo el liderazgo tecnológico de EE. UU. en IA”. Este lanzamiento representa un paso crucial hacia una IA más accesible, potente y local, aprovechando la infraestructura de cómputo más grande del mundo dedicada a la inteligencia artificial.





