El secreto chino de la IA: ¿Cómo DeepSeek gastó solo 6 millones para competir con GPT-4?

 Santo Domingo, 17 de junio de 2025-En un mundo donde entrenar un modelo de inteligencia artificial puede costar más que producir una película de Hollywood, la empresa china DeepSeek ha roto todos los esquemas. Mientras gigantes como OpenAI y Google invierten entre 70 y 100 millones de dólares para desarrollar sus modelos de lenguaje, DeepSeek lo hizo con apenas 6 millones… y logró un rendimiento comparable al de GPT-4.

El secreto de DeepSeak


¿Cómo es posible? ¿Qué brujería tecnológica emplearon? ¿Y qué significa esto para el futuro de la inteligencia artificial? Aquí te contamos el secreto chino que está haciendo temblar a Silicon Valley.

 La arquitectura que cambió las reglas del juego

El primer golpe maestro de DeepSeek fue utilizar una arquitectura llamada Mixture of Experts (MoE). Mientras que modelos como GPT-4 activan todos sus parámetros al mismo tiempo (algo así como encender todos los bombillos de una ciudad para alumbrar una sola calle), MoE solo activa una fracción de sus “expertos” para cada tarea.

En el caso de DeepSeek-V2, aunque el modelo cuenta con unos impresionantes 236 mil millones de parámetros, solo 21 mil millones se activan por token. Esto reduce drásticamente el uso de energía, memoria y poder de cómputo, manteniendo una calidad sorprendentemente alta.

 Menos chips, más inteligencia

Otro de los logros sorprendentes de DeepSeek fue entrenar su modelo utilizando apenas 2,048 GPUs Nvidia H800 durante 55 días, un número modesto comparado con los requerimientos de sus competidores. Esto, además, ocurrió en un contexto donde China enfrenta restricciones tecnológicas impuestas por Estados Unidos, lo que limita el acceso a los chips más avanzados de NVIDIA.

En lugar de rendirse, DeepSeek optimizó su proceso y aprovechó chips más antiguos, demostrando que no se necesita el último grito de la tecnología para obtener resultados de clase mundial. ¿David venciendo a Goliat en modo IA? Casi.

 Ingeniería con cerebro (y presupuesto)

El equipo de DeepSeek no partió de cero. Usaron conocimientos previos, modelos ya existentes, y aplicaron técnicas como la atención latente multicabezal (MLA) y la cuantización de parámetros, que reducen el uso de memoria sin sacrificar rendimiento. Además, usaron aprendizaje por refuerzo, una técnica donde el modelo aprende por sí mismo sin necesidad de millones de datos etiquetados por humanos.

En resumen, lograron un modelo más ligero, más rápido de entrenar y mucho más barato de mantener.

 Código abierto y estrategia sin ataduras

Mientras empresas como OpenAI guardan celosamente el código de sus modelos, DeepSeek apostó por el código abierto. Esto permite a desarrolladores y empresas utilizar, modificar y mejorar el modelo sin tener que reinventar la rueda (ni gastar millones en el intento).

Y hay más: al permitir la ejecución local en PC o móvil, DeepSeek evita el uso constante de servidores externos, lo cual abarata aún más los costos y ayuda a esquivar obstáculos como la censura digital o la preocupación por la privacidad de los datos.

 ¿Truco contable o verdadera eficiencia?

Vale la pena aclarar que los 6 millones estimados por DeepSeek solo incluyen el preentrenamiento final del modelo, sin sumar costos como salarios, infraestructura o pruebas iniciales. Pero incluso si duplicamos o triplicamos esa cifra, sigue estando muy por debajo del promedio de la industria.

El enfoque de DeepSeek se centra más en la investigación eficiente que en el lucro inmediato, una filosofía que contrasta con el modelo tradicional estadounidense, donde todo debe escalar rápido… y costar más.

 ¿Y ahora qué?

La jugada de DeepSeek no solo es una victoria económica, sino un mensaje claro: sí se puede hacer IA poderosa sin gastar una fortuna. Esto podría democratizar el acceso a la inteligencia artificial, abrir la puerta a nuevos actores en el mercado y obligar a los gigantes actuales a repensar sus modelos de negocio.

DeepSeek no solo compitió con los grandes… les dio una lección.

Comentarios

Entradas populares de este blog

¿Existe un "mejor" modelo de lenguaje? Claves para elegir el LLM ideal para tu proyecto

Por qué Aprender IA Será Clave para tu Futuro Profesional en 2025

Ignorar la Inteligencia Artificial en 2025: el costo de quedarse atrás