NUEVOS MODELOS DE IA

DeepSeek: la IA china que hizo colapsar los mercados. ¿Ha estallado la Burbuja de la IA?

Matt Wolfe
Enero 2025

DeepSeek, una innovación en IA china, causó importantes turbulencias en el mercado, particularmente afectando el valor de las acciones de Nvidia. El desarrollo se centra en dos modelos clave: DeepSeek V3 y su sucesor, DeepSeek R1.

DeepSeek V3, lanzado en diciembre de 2024, logró un avance significativo en eficiencia de IA, utilizando 671 mil millones de parámetros pero activando solo 37 mil millones por token mediante un enfoque de "mezcla de expertos". Notablemente, requirió solo 2.78 millones de horas de GPU H800 para su entrenamiento, en comparación con los aproximadamente 60 millones de horas de GPU necesarias para GPT-4. Esta reducción del 95% en requisitos computacionales se logró usando GPUs H800 menos potentes, que China debió utilizar debido a restricciones estadounidenses.

El impacto más significativo llegó con DeepSeek R1, que se construyó sobre V3 usando un enfoque innovador de aprendizaje por refuerzo no supervisado. La característica distintiva de R1 es su integración del razonamiento paso a paso durante la inferencia, permitiéndole razonar visiblemente a través de problemas y autocorregirse en tiempo real.

Esta innovación provocó preocupaciones en el mercado sobre la futura demanda de GPUs de alta gama. Sin embargo, hay contraargumentos: algunos analistas sugieren que costos de entrenamiento más bajos podrían aumentar la demanda general de GPUs al reducir las barreras de entrada y permitir que más empresas desarrollen modelos de IA.

DeepSeek también se ha expandido más allá de los modelos de lenguaje, lanzando recientemente Janus Pro 7B para generación de imágenes por IA, demostrando su rápido avance en múltiples dominios de IA. La tecnología es accesible a través de múltiples plataformas, incluyendo móvil, web e instalaciones locales.

Keep Reading


No posts found