De par en par: NVIDIA acelera la inferencia en Meta Llama 3

NVIDIA anuncia mejoras en todas sus plataformas para potenciar Meta Llama 3, la última generación del gran modelo de lenguaje (LLM). Esta colaboración entre el modelo abierto y la potencia de cómputo acelerada por NVIDIA capacita a desarrolladores, investigadores y empresas para innovar de manera responsable en una amplia gama de aplicaciones.

El equipo de Meta ha entrenado Llama 3 en clusters de computación equipados con 24,576 GPUs NVIDIA H100 Tensor Core, conectadas mediante redes RoCE y NVIDIA Quantum-2 InfiniBand. Con el respaldo de NVIDIA, Meta ha mejorado sus arquitecturas de red, software y modelos para su innovador LLM.

Para avanzar en el campo de la IA generativa, Meta tiene previsto expandir su infraestructura a 350,000 GPU H100.

El despliegue de Llama 3, acelerado por las GPUs NVIDIA, está disponible para su uso en la nube, centros de datos, periferia y PC. Los desarrolladores pueden probar Llama 3 desde un navegador en ai.nvidia. Está empaquetado como un microservicio NVIDIA NIM con una interfaz de programación de aplicaciones estándar que puede ser implementado en cualquier lugar.

Las empresas pueden personalizar Llama 3 con sus propios datos utilizando NVIDIA NeMo, un marco de código abierto para LLM que forma parte de la plataforma segura y compatible NVIDIA AI Enterprise. Los modelos personalizados pueden ser optimizados para inferencia con TensorRT-LLM de NVIDIA y desplegados con el servidor de inferencia Triton de NVIDIA.

Llama 3 también funciona en NVIDIA Jetson Orin para dispositivos de robótica y edge computing, permitiendo la creación de agentes interactivos como los del Jetson AI Lab.

Además, las GPUs NVIDIA RTX y GeForce RTX para estaciones de trabajo y PC aceleran la inferencia en Llama 3, brindando a los desarrolladores acceso a más de 100 millones de sistemas acelerados por NVIDIA en todo el mundo.

En términos de rendimiento, una sola GPU NVIDIA H200 Tensor Core generó aproximadamente 3,000 tokens/segundo, suficiente para atender a unos 300 usuarios simultáneos, utilizando la versión de Llama 3 con 70,000 millones de parámetros. Esto significa que un solo servidor HGX de NVIDIA con ocho GPU H200 podría proporcionar 24,000 tokens/segundo, lo que optimizaría aún más los costos al atender a más de 2,400 usuarios simultáneos.

Para dispositivos de borde, la versión de Llama 3 con ocho mil millones de parámetros generó hasta 40 tokens/segundo en la Jetson AGX Orin y 15 tokens/segundo en la Jetson Orin Nano.

NVIDIA, comprometida con el código abierto, contribuye activamente al software comunitario que ayuda a los usuarios a abordar sus desafíos más difíciles. Los modelos de código abierto promueven la transparencia en la IA y permiten a los usuarios compartir ampliamente el trabajo sobre seguridad y resiliencia de la IA.

Obtenga más información sobre la plataforma de inferencia de IA de NVIDIA, incluida la forma en que NIM, TensorRT-LLM y Triton utilizan técnicas de vanguardia como la adaptación de bajo rango para acelerar los últimos LLM. Marcio Aguiar, director de la división Enterprise de NVIDIA para Latinoamérica, declara: «Estamos encantados de ofrecer más de esta tecnología de IA de NVIDIA para impulsar la innovación. Con Meta Llama 3 optimizada para nuestras GPU, estamos permitiendo a desarrolladores y empresas explorar todo el potencial de la inteligencia artificial en una gran variedad de aplicaciones, desde la nube hasta los dispositivos de borde».

Etiquetas de artículos:

nvidia