¿Quién está detrás de DeepSeek, la IA que destroza a ChatGPT?

enero 27, 2025

COMPARTE

DeepSeek ha tomado por asalto el mundo y ya está generando pérdidas millonarias en empresas como OpenAI, NVIDIA y Microsoft. El modelo de lenguaje de origen chino deja en ridículo a otras IA como ChatGPT, superándolos no solo en rendimiento sino eficiencia. Si bien DeepSeek se viralizó en las últimas horas, lo cierto es que su desarrollo no fue de la noche a la mañana.

Para entender el fenómeno de DeepSeek tenemos que remontarnos a 2015, cuando tres ingenieros de la Universidad Zhejiang fundaron High-Flyer, una empresa de trading cuantitativo. La empresa nació de las cenizas de la crisis financiera de 2008, por lo que sus cofundadores se enfocaron en modelos matemáticos y estadísticos para identificar oportunidades de inversión.

Tras unos años y con cientos de productos en su cartera, High-Flyer dio el giro hacia el aprendizaje automático (machine learning) en 2019, un movimiento que definiría su futuro y, en última instancia, sus dificultades. Liang Wenfeng, uno de sus cofundadores y el actual CEO de DeepSeek, estableció a High-Flyer como un fondo de cobertura enfocado al desarrollo y uso de algoritmos de IA para trading.

Ese mismo año, la compañía estableció una división de investigación y desarrollo que terminaría por construir sus primeras supercomputadoras Fire-Flyer. Uno de estos ordenadores albergaba más de 10.000 NVIDIA A100 que Wenfeng compró antes de que Estados Unidos bloqueara la venta de GPU a China. Sus creadores querían explotar el potencial de la IA para desarrollar estrategias de inversión, sin embargo, sus modelos de lenguaje no eran muy avanzados y esto generó pérdidas económicas considerables.

Este fue un punto clave para DeepSeek, puesto que en abril de 2023, High-Flyer fundó un laboratorio independiente para explorar el futuro de la IA. Al igual que Sam Altman, Liang Wenfeng quería desarrollar la inteligencia artificial general.

El éxito de DeepSeek radica en el bloqueo de EE. UU. a China

La primera versión de DeepSeek debutó a finales de noviembre de 2023 como un modelo de lenguaje de código abierto. Esta IA de 67.000 millones de parámetros se desempeñaba bien en pruebas de matemáticas y programación, superando a Llama y acercándose a GPT-4, pero no era muy eficiente en términos de eficiencia computacional y escalabilidad.

Seis meses después, High-Flyer lanzó la segunda versión de DeepSeek con mejoras en rendimiento y una característica fundamental: era muy barato. Esto no solo ocasionó una caída en las acciones de sus competidores, sino que provocó que Alibaba y Baidu ajustaran los precios de sus modelos de lenguaje o los ofrecieran sin coste.

La tercera versión arribó en diciembre de 2024 con otra bomba bajo el brazo. Este modelo de lenguaje de 671.000 millones de parámetros utilizó menos recursos para su entrenamiento que otras IA.

DeepSeek has not issued any cryptocurrency. Currently, there is only one official account on the Twitter platform. We will not contact anyone through other accounts.Please stay vigilant and guard against potential scams.

— DeepSeek (@deepseek_ai) January 10, 2025

De acuerdo con una publicación de South China Morning Post, DeepSeek V3 requirió 2.780 millones de horas de entrenamiento usando tarjetas H800. Para tener una idea de la importancia de esta cifra, Llama 3.1 de Meta necesitó unas 30.800 millones de horas de GPU. Las sanciones y la imposibilidad de acceder a tecnología para fabricar semiconductores fueron clave para desarrollar una nueva arquitectura para entrenar a DeepSeek.

«Esta IA demuestra que las limitaciones de recursos te obligan a reinventarte de maneras espectaculares», declaró Jim Fan, investigador senior de NVIDIA. «Las limitaciones de recursos son algo hermoso. El instinto de supervivencia en un mundo competitivo en el que impera la inteligencia artificial es un factor determinante para los avances», añadió Andrej Karpathy, cofundador de OpenAI.

Su creador está ligado al Partido Comunista

Aunque el desarrollo de DeepSeek está garantizado por los fondos de High-Flyer, algunos han señalado que existe un tercero en discordia: el gobierno de China. Un reporte afirma que Liang Wenfeng tiene un estrecho vínculo con el Partido Comunista Chino y que DeepSeek contó con apoyos estatales para acelerar el desarrollo de la IA.

Si bien esto no es extraño en una empresa china de tecnología, expertos en seguridad afirman que DeepSeek podría ser usado para identificar vulnerabilidades en sistemas de países enemigos. Esta capacidad para procesar y analizar conjuntos de datos masivos sería clave para usar los exploits como arma contra infraestructura de Estados Unidos. La IA también serviría para tareas de espionaje, crear campañas de desinformación y otros usos para los que no fue diseñada.

Aunque algunas de estas críticas tienen sustento, lo cierto es que ChatGPT, Gemini y otras IA occidentales ya son utilizadas para este fin. A eso se suma que Project Stargate de OpenAI tiene apoyo abierto del gobierno de Estados Unidos para impulsar al país como potencia en el desarrollo de esta tecnología.

Escrito por Mozoilo Irratia