Bienvenido
/
blog
/
¿Vale la pena la certificación NVIDIA GenAI? Nuestra honesta revisión
Artículos
14.02.2025
12 min

¿Vale la pena la certificación NVIDIA GenAI? Nuestra honesta revisión

¿Vale la pena la certificación NVIDIA GenAI? Nuestra honesta revisión

Margot Fournier y yo (Matthieu De Cibeins) somos Consultores científicos de datos En LittleBigCode. Pasamos con éxito por NVIDIA GenAI Ruta de aprendizaje Y Certificación en octubre de 2024. Este artículo tiene como objetivo proporcionar una retroalimentación honesta sobre su Fortalezas y debilidades, una descripción general de la ruta de aprendizaje y tantos detalles como sea posible sobre cómo prepararla mejor.

¿Por qué elegir la certificación NVIDIA GenAI?

Debido a los distintos tipos de datos y sus especificidades, el alcance de la ciencia de datos es tan amplio que es raro encontrar a un científico de datos que domine varios campos de especialización en su ámbito (Series temporales, Visión por computador, Datos tabulares, Procesamiento del lenguaje natural, etc.). Sin embargo, dada la evolución extremadamente rápida del ecosistema de la IA —tal y como se desprende de los rumores actuales sobre la GenAI—, sigue siendo importante que un consultor de IA demuestre un nivel mínimo en todos los campos para poder entender los conceptos básicos de cada uno de ellos. Ese es el concepto central del Matriz de competencias en «forma de T» Querido a LittleBigCode.

Ilustración de la forma de T

Dada la rápida evolución del Tecnologías GenAI, encontrar la ruta de aprendizaje adecuada para mejorar rápidamente sus habilidades en GenAI fue una tarea estratégica para LittleBigCode, y llevó a la elección de dos consultores para comparar la certificación GenAI de nVidia: un consultor sénior de ciencia de datos, con una sólida experiencia en series temporales y datos tabulares, pero con menos conocimientos en GenAI; y un consultor más junior, con experiencia en Series temporales Y datos satelitales, pero también algo de experiencia con modelos de PNL más antiguos, como BERT.

Entre las certificaciones de GenAI, elegir la de nVidia fue bastante sencillo. De hecho, un puñado de empresas se arriesgaron a crear itinerarios de aprendizaje y certificaciones en torno a este dominio que cambiaba rápidamente. Es posible que las grandes empresas, Google y Microsoft, estén esperando a que la moda de la GenAI llegue a su fin. NVIDIA no lo hizo. Esta fue una gran oportunidad para comparar las tecnologías de este gigante del hardware de inteligencia artificial, sin mencionar que también está aumentando su oferta de software, lo que hizo que esta formación fuera aún más interesante.

¿En qué consiste la certificación NVIDIA GenAI?

Se compone de:

  • Una ruta de aprendizaje que incluye varios módulos agrupados en 3 temas : Fundacional, específico para aplicaciones, GenAI y LLM.
  • Un examenEntrega de la certificación

Como entendimos más adelante, se supone que esos módulos no deben considerarse de manera exhaustiva, sino que deben seleccionarse según sus habilidades y experiencia en cada dominio. Nos centramos en los módulos ecológicos (A su propio ritmo) y optamos por dividir nuestras rutas de aprendizaje de la siguiente manera:

Al final, el examen consiste en un MCQ de 50 preguntas que se completará en una hora. En la siguiente sección, ofreceremos una descripción general de cada módulo por el que pasamos.

Lo que aprendimos

1. GenAi explicó

Este módulo fundamental proporciona una visión global de lo que abarca la palabra de moda «GenAI». Su objetivo es definir los conceptos básicos de GenAI para principiantes, así como dar ejemplos de aplicaciones de la vida real: lenguaje, imágenes, etc. Pero también introduce conceptos más elaborados: cómo pretendemos capturar la distribución de datos para generar muestras en función de las condiciones; estrategias para afinar los modelos de generación basados en la retroalimentación humana, la composición entre texto e imágenes... Por último, resumir los desafíos y las oportunidades de GenAI brinda la oportunidad de dar un paso atrás y enumerar todas las consideraciones que deben tenerse en cuenta a la hora de seguir desarrollando una aplicación de GenAI.

Comentarios sobre el curso

  • Pros: Realmente es un buen aperitivo para comprender todos los aspectos de GenAI, no solo las oportunidades, sino también los muchos desafíos que se presentan. El profesor del curso es muy educativo.
  • Contras: No vas a aprender mucho de este módulo, ya que en realidad es una introducción y no entra en detalles. El cuestionario que da ritmo al módulo está mal estructurado (por ejemplo, en caso de que la respuesta sea incorrecta, no se puede ver el motivo)

Por lo tanto, este módulo es una introducción muy útil para los principiantes, y las personas que ya tienen nociones de GenAI pueden omitirlo fácilmente.

2. Cómo empezar con el aprendizaje profundo

Aquí empezamos a entrar en detalles. Este curso de 8 horas y 90 dólares es una gran oportunidad para descubrir el aprendizaje profundo «por las malas», es decir, metiendo mano a mano en el código. Pero también es un excelente repaso para las personas que ya están familiarizadas con el aprendizaje profundo, porque es muy exhaustivo y abarca los principales ámbitos del aprendizaje profundo:

  • El «hola mundo» del aprendizaje profundo: MNIST
  • La teoría detrás Redes neuronales : gradientes, retropropagación, optimizadores, y así sucesivamente
  • Convoluciones conceptos principales: puesta en común, abandono, norma de lotes...
  • Aumento de datos técnicas y consideraciones de implementación (cuando los datos de la vida real son diferentes a los datos de entrenamiento)
  • Modelos previamente entrenados y puesta a punto
  • PNL y transformadores

Para cada tema, una lección de 5 a 10 minutos precedida de PyTorch implementación con cuadernos precargados.

Comentarios sobre el curso

  • Pros: Al tener experiencia previa con el aprendizaje profundo, todavía lo encontraba útil como recordatorio y estaba muy bien estructurado, desde temas simples hasta temas más complejos. También aprendí algunas técnicas que desconocía. Los cuadernos están muy bien explicados, con explicaciones entre celdas de código. Por último, las instancias de NVIDIA permiten entrenar modelos grandes con facilidad.
  • Contras: Los cuadernos son exhaustivos y podrían ser un poco menos guiados para alentar a los alumnos a comprender los conceptos por sí mismos. La longitud del código no te anima a revisar y entender cada línea. Por lo tanto, resulta tentador ejecutar rápidamente todas las celdas, lo que, después de varias lecciones, reduce la memorización de los conceptos. Además, el contenido del curso podría ser más largo y claro.

En resumen, este módulo es una introducción bastante general y detallada al aprendizaje profundo y, en mi opinión, su principal interés radica en la estructura global del curso y en el contenido de los portátiles con tecnología NVIDIA. Sin embargo, puedes encontrar fácilmente recursos teóricos gratuitos sobre este tema.

3. Aceleración de los flujos de trabajo integrales de ciencia

Este módulo presenta NVIDIA RÁPIDOS, un conjunto de software diseñado para revolucionar los flujos de trabajo de la ciencia de datos mediante Aceleración de GPU, con un rendimiento hasta 10 veces más rápido que los métodos de CPU convencionales.

RAPIDS: ciencia de datos de GPU acelerada de extremo a extremo

Una de las características atractivas de RAPIDS es su compatibilidad con las conocidas bibliotecas de Python. RAPIDS proporciona un equivalente acelerado por GPU para los paquetes más populares, lo que permite a los científicos de datos migrar sus flujos de trabajo con ajustes mínimos en la sintaxis. Este es un desglose de algunos mapeos:

  • Pandas vs. cUDF (RÁPIDO): Ambos proporcionan DataFrames para la manipulación de datos, pero cuDF acelera las operaciones con las GPU de NVIDIA.
  • Scikit-learn vs. CuML (RAPIDS): Scikit-learn proporciona algoritmos de aprendizaje automático en la CPU, mientras que CuML acelera estos algoritmos en las GPU.
  • Bokeh vs. Filtro CUX (RAPIDS): CuxFilter ofrece una exploración de datos interactiva en tiempo real en las GPU, lo que lo convierte en un sustituto adecuado de las herramientas de visualización tradicionales, como Bokeh, para datos basados en GPU.

La verdadera fortaleza de RAPIDS reside en la aceleración de la GPU y la integración con Flecha apache. A diferencia de las bibliotecas de ciencia de datos tradicionales diseñadas para el procesamiento de CPU, RAPIDS aprovecha la potencia informática paralela de las GPU. Esta aceleración produce importantes mejoras en el rendimiento, a menudo 10 veces más rápido que las soluciones que solo utilizan CPU, como Pandas.

Otra ventaja es el uso por parte de QUICKS de Apache Arrow, un formato de memoria que minimiza el movimiento de datos entre las capas de almacenamiento, lo que agiliza el proceso de procesamiento de datos y reduce la latencia. Con Arrow, las operaciones de datos son más eficientes, ya que optimiza el almacenamiento en memoria y se ajusta a las necesidades de la GPU, lo que permite un procesamiento más fluido.

Pros:

  • La formación fue concisa, con cursos de unos pocos minutos cada uno, lo que permitió un enfoque centrado sin información innecesaria.
  • Los ejercicios paso a paso fueron particularmente efectivos, ya que mostraron comparaciones de rendimiento entre RAPIDS y las bibliotecas tradicionales, y RAPIDS demostró ser aproximadamente 10 veces más rápido que Pandas en la mayoría de los casos.
  • Una ventaja clave fue la mínima diferencia de sintaxis entre las bibliotecas clásicas y las de Rapids: la transición fue sencilla, lo que reduce la curva de aprendizaje para los nuevos usuarios.

Contras:

  • Una desventaja que señalé fue que la documentación de RAPIDS parece algo limitada, lo que podría dificultar la solución de problemas.

4. Introducción a la PNL basada en transformadores

Este curso ofrece una introducción a Modelos de lenguaje grande (LLM) basados en transformadores y sus aplicaciones en tareas de PNL como la clasificación de textos, el reconocimiento de entidades nombradas (NER), la atribución del autor y la respuesta a preguntas.

Los participantes aprenden a usar LLM previamente capacitados para aplicaciones como Chatbots y asistentes virtuales.

El curso se centra principalmente en la configuración, utilizando herramientas como OmegaConf, PyTorch Lightning, y Nemo de nVidia. En lugar de programar modelos desde cero, los alumnos ajustan los archivos de configuración para configurar las rutas de datos, los parámetros del modelo y las especificaciones del hardware para la aceleración de la GPU. Este enfoque modular simplifica la implementación y mantiene los flujos de trabajo organizados, pero puede resultar menos práctico, especialmente para quienes recién comienzan a usar configuraciones con un uso intensivo de la configuración.

Pros:

  • El curso ofrece cuadernos de ejemplo preconfigurados que son fáciles de implementar, junto con una útil descripción general del Trainer de PyTorch Lightning, que cubre acciones esenciales como el ajuste, la evaluación y la predicción.

Contras:

  • El contenido del curso es mínimo, con conferencias muy breves y pocos ejercicios prácticos, lo que limita la profundidad teórica y técnica.
  • Las tareas demasiado simplificadas y las configuraciones preprocesadas dificultan la apreciación de las complejidades de la PNL del mundo real.

5. Creación de agentes de RAG con LLM

Probablemente el módulo del que más esperábamos, dado que ambos conocíamos los conceptos principales de los LLM, pero ninguno de nosotros había manipulado ni implementado los RAG, lo que constituye una técnica muy útil a la hora de traducir el poder de los LLM en aplicaciones empresariales reales. De hecho, el módulo era muy completo (y consumía mucho tiempo: ambos pasamos mucho más de las 8 horas indicadas, probablemente unas 15). Abarca los siguientes temas:

  • Descripción general de los servicios de LLM, incluidos los de nVidia
  • Langchain principios principales (ejecutables, indicaciones, analizadores)
  • Funcionamiento de cadenas estatales
  • Documentos yEstrategias de fragmentación
  • Incruzaciones y consultas
  • Tiendas vectoriales (desde estrategias ingenuas de «siempre activas» hasta estrategias más complejas con una lógica ramificada)
  • Evaluación (LLM como juez, RAGAS)

Comentarios sobre el curso

  • Pros: Los cuadernos del curso son muy técnicos y permiten comprender algunos conceptos clave de los RAG. Se abordan aspectos relacionados con la implementación en la vida real (incluida la evaluación)
  • Contras: El contenido teórico (vídeo+diapositivas) es todavía bastante escaso, algunos conceptos esenciales no reciben el tiempo que merecen y parece que la estructura del curso no es fácil de seguir. La evaluación final del cuaderno no es en absoluto trivial y requiere profundizar en el código de Python (incluida la comprensión de cómo los servicios interactúan entre sí), por lo que la depuración no es fácil. Está claro que esta complejidad podría evitarse, ya que no aporta valor al curso de RAG.

6. GenAI con modelos de difusión

Este curso presenta a los alumnos las aplicaciones de la IA generativa en todos los sectores, con un enfoque específico en Difusión de eliminación de ruido Modelos para la generación de texto a imagen. Los participantes adquieren experiencia práctica en la creación y optimización de arquitecturas U-Net, la aplicación de procesos de difusión para mejorar la calidad de la imagen y el uso Aprendizaje previo al lenguaje contrastante con imágenes (CLIP) para la generación de imágenes basadas en texto.

Comentarios sobre el curso

  • Pros: Los cuadernos del curso están bien estructurados e introducen funciones y parámetros clave de PyTorch relevantes para los modelos de difusión, como la adición de dimensiones temporales e incrustaciones de contexto. Ofrece información sobre conceptos de optimización avanzados, como una guía de difusión sin clasificadores, y proporciona una exploración técnica más profunda.
  • Contras: El lento tiempo de inicio de las máquinas virtuales de la plataforma NVIDIA perjudica la experiencia de aprendizaje, al igual que la baja calidad de audio de las lecturas. El contenido del curso en sí es limitado en profundidad y, a menudo, abarca conceptos básicos (por ejemplo, U-Net, GAN, convoluciones) sin que los alumnos piensen críticamente. Si bien los cuadernos son detallados, permiten un repaso rápido y superficial o un análisis profundo y extenso, lo que fomenta de forma limitada el aprendizaje reflexivo.

Contenido del examen

Lo principal a tener en cuenta al prepararse para el examen es que no se centra únicamente en los módulos presentados anteriormente, sino que evalúa un conocimiento global del campo de GenAI. Se requiere un conocimiento sólido del GenAI, desde los conceptos principales del aprendizaje automático y el aprendizaje automático hasta nociones más específicas de la PNL, incluidos los RAG. También aborda las bibliotecas y los recursos informáticos específicos de NVIDIA.

Otros temas que no forman parte de la ruta de aprendizaje incluyen, por ejemplo, las pruebas A/B o las consideraciones éticas sobre la IA.

En cuanto al contenido, el examen consta de 50 preguntas de opción múltiple que se completarán en 1 hora:

  • 45 preguntas Pide 1 respuesta de entre 4 opciones
  • 5 preguntas Pide 2 respuestas de entre 5 opciones

Para que os hagáis una idea de los pesos de cada sección, tenía aproximadamente:

  • 15 preguntas de carácter general Temas de ML/DL (funciones de activación, aprendizaje por transferencia, normalización de capas, normalización de capas, gradientes que desaparecen, reducción de dimensionalidad, bibliotecas ML,...)
  • 15 preguntas sobre conceptos de PNL (motivación detrás de los transformadores, mecanismo de atención, aprendizaje de pocos disparos, ingeniería rápida, análisis de sentimientos, bibliotecas de PNL,...)
  • 5 preguntas sobre los RAG (fragmentación, langchain, almacenes vectoriales, recuperación de documentos)
  • 5 preguntas sobre la computación de NVIDIA (servidor de inferencia Triton, NeMo, TensorRT frente a ONNX, optimización del rendimiento de la CPU/GPU,...)
  • 4 preguntas sobre Pruebas A/B (teoría versus práctica)
  • 3 preguntas sobre IA ética (especialmente sobre la Iniciativa de Autenticidad del Contenido)
  • 1 pregunta sobre Broadcast

Lo cual, sumado a los que olvidé, debería resumir en 50 Winking Face

Aprendizajes de la certificación NVIDIA GenAI LLMS y reflexiones adicionales

En general, los módulos son bastante densos y definitivamente te ayudan a entender nociones específicas de GenAI, incluso más que si eres un principiante en el campo. Estas son algunas ideas adicionales que esperamos te ayuden a decidir si quieres profundizar en esta certificación:

  • Con este curso, aprenderá mucho sobre la GenAI, pero no será suficiente para completar la certificación.De hecho, una comprensión global del campo es muy beneficiosa para aprobar el examen. Por ejemplo, ningún módulo aborda las pruebas A/B o la IA ética, que son necesarias para el examen. Además, algunos temas importantes de GenAI aún no forman parte del proceso de aprendizaje ni del examen, como las operaciones de LLM-Ops.
  • La ruta de aprendizaje incluye excelentes módulos, pero a veces carece de un hilo conductor.Se ha creado de forma orgánica, los módulos se han agregado al Deep Learning Institute de nVidia uno por uno y la certificación solo se obtuvo después al agrupar algunos de ellos. Como resultado, a veces no es fácil ver vínculos claros entre los módulos y, en ocasiones, los principiantes pueden sentirse bastante perdidos: ¿qué nociones son esenciales? ¿Cuáles es bueno tener?
  • La calidad del contenido de los módulos es variable.Algunas de ellas realmente se han ganado nuestra consideración (felicitaciones por «Crear agentes de RAG con LLM» y «GenAI con modelos de difusión»), mientras que otras nos parecieron un poco más vacías en nuestra opinión («Explicación de GenAI» o «Introducción a la PNL basada en transformadores»). Algunas son muy teóricas (Diffusion), mientras que otras son muy específicas (RAG). Además, se agradecería enormemente una mayor coherencia entre los módulos (altavoces, calidad de grabación (sorprendentemente), tiempo dedicado a los ordenadores portátiles.

Esperamos que este artículo haya sido revelador. No dudes en ponerte en contacto con nosotros si tienes alguna pregunta o comentario, ¡estaremos encantados de ayudarte!

Otros artículos

Ver todos
Vue aérienne d'un marais avec de petits cours d'eau sinueux traversant des zones de végétation brune et des berges sableuses.

contacto

¿Están sus datos preparados para la IA?

Un intercambio de 30 minutos con uno de nuestros expertos para evaluar la madurez de sus datos e identificar las primeras acciones.

Reserva un diagnóstico