viernes, 24 de abril de 2026

DeepSeek V4: el nuevo modelo abierto chino que sacude la carrera de la IA

Modelo de inteligencia artificial DeepSeek V4

Han pasado ya varios meses desde aquel primer “momento DeepSeek” que puso en alerta a la industria de la IA, y la compañía china vuelve ahora al primer plano con el lanzamiento de DeepSeek V4. Se trata de un nuevo modelo fundacional de pesos abiertos, de escala masiva, que apunta directamente a los sistemas más avanzados de OpenAI, Anthropic o modelos de Google, pero con un enfoque muy agresivo en costes y eficiencia.

El aterrizaje de DeepSeek V4 no se limita a una simple actualización incremental. El modelo llega en formato preliminar, con acceso público a través de su propio chatbot y de una API renovada, y combina una ventana de contexto enorme, mejoras claras en razonamiento y programación, y una estructura técnica pensada para reducir drásticamente el coste por token. Todo ello vuelve a alimentar la competencia entre China y Estados Unidos por el liderazgo de la inteligencia artificial generativa.

Dos versiones abiertas: DeepSeek V4-Pro y V4-Flash

DeepSeek ha optado por una estrategia dual con V4: por un lado, DeepSeek V4-Pro se coloca como el modelo insignia, con 1,6 billones de parámetros totales, de los cuales 49.000 millones están activos en cada inferencia gracias a una arquitectura Mixture-of-Experts (MoE). Esta cifra lo sitúa entre los modelos abiertos más grandes y ambiciosos del mercado.

En paralelo, la empresa ofrece DeepSeek V4-Flash, una variante más ligera y económica con 284.000 millones de parámetros totales y 13.000 millones activos. Aunque es el modelo “compacto” de la familia, sigue moviéndose en una escala muy elevada si se compara con otros sistemas diseñados para uso intensivo y costes ajustados.

Ambas variantes comparten una de las características más llamativas de la nueva generación: una ventana de contexto de hasta 1 millón de tokens. Esto supone multiplicar por casi ocho el límite de la serie anterior (DeepSeek v3, que se quedaba en 128.000 tokens) y abre la puerta a manejar de golpe novelas, grandes bases de código o documentación técnica muy extensa sin necesidad de fragmentar la conversación.

Además de las versiones base, DeepSeek incorpora modalidades de máxima capacidad de razonamiento, como DeepSeek V4-Pro-Max y V4-Flash-Max, orientadas a tareas complejas de lógica, agentes autónomos y programación avanzada. Estas variantes son las que protagonizan buena parte de las comparativas técnicas que la compañía ha publicado.

Arquitectura Mixture-of-Experts y contexto ultralargo

La clave técnica de DeepSeek V4 está en la combinación de una arquitectura Mixture-of-Experts con un esquema de atención híbrida. En la práctica, esto implica que solo una fracción de los parámetros del modelo se activa en cada consulta, lo que reduce el coste de cálculo y la memoria necesaria sin renunciar a una capacidad global muy alta.

Según los datos de la propia empresa, en escenarios con el contexto extendido a 1 millón de tokens, DeepSeek V4-Pro necesita únicamente el 27% de las operaciones por token (FLOPs) que consumía DeepSeek V3.2, y alrededor del 10% de la caché KV. V4-Flash va incluso un paso más allá en eficiencia, ajustando todavía más los requisitos de cómputo para entornos donde el coste por llamada es crítico.

Esta arquitectura híbrida de atención se ha diseñado específicamente para que el contexto extralargo no se convierta en un lujo reservado a modelos cerrados y muy caros. En lugar de disparar de forma lineal la memoria al crecer la longitud de la secuencia, DeepSeek comprime y gestiona de forma más selectiva la información que mantiene activa, algo especialmente relevante para aplicaciones corporativas o de investigación en Europa, donde el volumen de documentos legales, técnicos o financieros puede ser enorme.

En términos prácticos, esta combinación permite que organizaciones de distinto tamaño puedan trabajar con corpus internos extensos (informes, contratos, repositorios de código) dentro de una única conversación, manteniendo coherencia y contexto sin necesidad de técnicas adicionales complejas de segmentación.

Rendimiento: benchmarks que miran de tú a tú a los gigantes

DeepSeek asegura que V4, y en especial su variante V4-Pro-Max, ya juega en la misma liga que los modelos propietarios más avanzados. En las comparativas internas, el modelo se sitúa a la altura o incluso por encima de sistemas como Claude Opus, GPT-5.4 xHigh o Gemini 3.1 Pro High en distintas baterías de pruebas centradas en razonamiento, conocimiento general, agentes y programación.

En LiveCodeBench, uno de los benchmarks de referencia en tareas de programación, DeepSeek V4-Pro-Max alcanza una puntuación del 93,5%, por encima del 88,8% de Claude Opus 4.6 y del 91,7% de Gemini 3.1 Pro, de acuerdo con las cifras publicadas por la compañía. En este terreno, el modelo apunta claramente a desarrolladores y equipos técnicos que necesitan soporte avanzado para generar, revisar y depurar código.

En otros conjuntos de pruebas, las diferencias frente a los modelos estadounidenses y europeos son más variables, pero el mensaje de fondo es que V4-Pro se mueve muy cerca de los líderes, en algunos casos empatando con referencias como Claude Opus 4.7, que hasta ahora se consideraba uno de los estándares más altos en el mercado de la IA generativa.

Dentro de la propia familia DeepSeek, el salto también es notable. Frente a DeepSeek 3.2, que ya había dado un avance en razonamiento con sus versiones Thinking y Special, V4-Pro y V4-Flash mejoran en precisión en numerosas pruebas, manteniendo o incluso reduciendo la necesidad de parámetros activos, lo que refleja una optimización clara del diseño del modelo.

V4-Pro-Max y V4-Flash-Max: el empuje del open source avanzado

Una de las banderas de DeepSeek sigue siendo la apuesta por modelos de pesos abiertos con rendimiento de gama alta. V4-Pro-Max se presenta como el modelo open source más avanzado de la compañía hasta la fecha, con especial énfasis en tareas de razonamiento complejo, agentes y resolución de problemas que requieren varios pasos encadenados.

En las gráficas de rendimiento publicadas por la empresa, V4-Pro-Max destaca en pruebas como Apex Shortlist y Codeforces, donde llega a superar a opciones propietarias punteras. En otros tests más centrados en preguntas simples de conocimiento general (SimpleQA Verified), queda ligeramente por detrás de Gemini 3.1 Pro High, aunque se mantiene en la parte alta de la tabla.

Por su parte, V4-Flash-Max busca un equilibrio entre tamaño y capacidad. Con aproximadamente tres veces menos parámetros que DeepSeek 3.2-Base en algunas variantes, el nuevo modelo Flash logra resultados superiores en precisión, acercándose en muchos casos a V4-Pro con diferencias de apenas un 2-3% en las métricas principales.

No obstante, en ciertas pruebas de conocimiento paramétrico profundo, como FACTS Parametric (EM) o Simple-QA verified (EM), la brecha es mayor: V4-Flash se queda claramente por detrás de V4-Pro, lo que indica que, aunque la eficiencia es notable, quienes busquen el máximo nivel en tareas muy exigentes seguirán encontrando en Pro la opción más robusta.

Precios muy agresivos frente a OpenAI, Anthropic y compañía

Más allá de la parte técnica, DeepSeek vuelve a usar el precio como arma principal para tensionar el mercado de la IA. Los costes oficiales por uso de la API de DeepSeek V4-Pro se sitúan en torno a 1,74 dólares por millón de tokens de entrada y 3,48 dólares por millón de tokens de salida, cifras muy por debajo de las tarifas habituales de los modelos de referencia estadounidenses.

Según análisis independientes, estas cantidades pueden llegar a ser hasta siete veces inferiores a las de modelos comparables de Anthropic (como Opus 4.7) y casi nueve veces más baratas que las del último GPT-5.5 de OpenAI para escenarios equivalentes. En la práctica, esto convierte a V4-Pro en una opción especialmente atractiva para empresas europeas que busquen reducir la factura de IA sin renunciar a capacidad.

En el caso de DeepSeek V4-Flash, la compañía fija el coste en torno a 0,14 dólares por millón de tokens de entrada y 0,28 por millón de salida. Aquí la comparación es todavía más llamativa: frente a modelos ligeros como GPT-5.4 Mini, el nuevo Flash puede resultar hasta 16 veces más económico en algunos casos de uso intensivo.

Este posicionamiento supone un problema evidente para actores como Anthropic, que recientemente ha sido criticada por la “reduflación” de algunos de sus modelos (mismo precio, pero mayor consumo de tokens para tareas similares). Si las cifras de DeepSeek se confirman en despliegues reales, V4 podría convertirse en un referente para plataformas europeas que integren IA en productos de consumo y herramientas internas.

DeepSeek V4 en el contexto de la carrera tecnológica EE. UU.-China

El lanzamiento de DeepSeek V4 llega en un momento especialmente sensible de la competencia geopolítica entre Estados Unidos y China en torno a la inteligencia artificial. Washington ha tratado de limitar el acceso de Pekín a chips avanzados y maquinaria de fabricación de semiconductores, pero el éxito de modelos como DeepSeek sugiere que estas restricciones no han frenado del todo la capacidad de la industria china.

En enero del año pasado, DeepSeek ya había sacudido el panorama con un chatbot generativo que rivalizaba con ChatGPT o Claude usando, según la propia empresa, muchos menos recursos de cómputo. Esa combinación de rendimiento alto y costes controlados se percibió como una señal preocupante para compañías y reguladores estadounidenses.

El debate político se ha ido calentando. Recientemente, la Casa Blanca acusó a entidades chinas de realizar campañas de extracción masiva de tecnología de IA estadounidense, y OpenAI acusa a DeepSeek de copiar sus modelos, señalando explícitamente prácticas de supuesto robo de propiedad intelectual. Pekín rechazó estas acusaciones, calificándolas de infundadas y asegurando que China da importancia a la protección de los derechos de autor y las patentes.

Al mismo tiempo, la trayectoria de DeepSeek no ha estado exenta de polémicas. Usuarios y analistas detectaron que su chatbot evitaba responder a cuestiones consideradas políticamente sensibles, como los sucesos de Tiananmen en 1989, reabriendo el debate sobre los límites, la censura y el control de contenidos en modelos de IA desarrollados en entornos regulatorios más restrictivos.

La incógnita del hardware y la sombra (cada vez menor) de NVIDIA

Uno de los apartados donde DeepSeek mantiene más hermetismo es el del hardware concreto empleado para entrenar V4. En versiones anteriores, la compañía había reconocido el uso de GPUs NVIDIA H800, pero en esta ocasión no ha detallado cuántos recursos ni qué combinación exacta de chips se ha utilizado.

Lo que sí ha explicado la empresa es que el nuevo modelo se ha desarrollado para funcionar tanto en aceleradoras de NVIDIA como en los chips Ascend de Huawei. Según la información compartida en redes y en su informe técnico, DeepSeek ha creado kernels optimizados para ambos ecosistemas, buscando reducir su dependencia de un solo proveedor en un contexto de sanciones y restricciones crecientes.

Huawei, por su parte, ha confirmado que sus clusters Ascend Supernode, basados en los Ascend 950, darán soporte completo a las versiones de DeepSeek V4. Esta alianza refuerza la percepción de que el hardware chino ha alcanzado ya un nivel suficiente como para sostener modelos de gran escala sin necesidad de recurrir a GPUs estadounidenses.

El propio Jensen Huang, CEO de NVIDIA, ha calificado este tipo de movimientos como “una mala noticia” para Estados Unidos, en tanto que reducen la dependencia mundial de sus chips de IA. Para Europa, acostumbrada a operar con hardware predominantemente estadounidense, la aparición de una alternativa madura de origen chino añade otra pieza al puzle sobre soberanía tecnológica y diversificación de proveedores.

Una estrategia de continuidad tras el impacto de R1

DeepSeek R1, presentado en enero de 2025, fue el modelo que marcó un antes y un después al demostrar que China podía entrenar IA competitiva a una fracción del coste de las grandes tecnológicas occidentales. V4 ya no llega con el mismo factor sorpresa, pero sí consolida la estrategia que ha hecho conocida a la compañía.

La firma se ha posicionado como sinónimo de modelos abiertos, centrados en eficiencia y con un relato muy claro de “alto rendimiento a bajo precio”. V4 encaja plenamente en esa narrativa, reforzando la idea de que el contexto largo y las capacidades de razonamiento complejas no tienen por qué quedar limitadas a plataformas cerradas y muy caras.

Al mismo tiempo, el lanzamiento se produce en medio de movimientos internos relevantes. Referentes técnicos de la compañía, como Guo Daya o Luo Fuli, han abandonado DeepSeek en los últimos meses para incorporarse a ByteDance y Xiaomi, respectivamente, lo que plantea incógnitas sobre la retención de talento y la continuidad de la hoja de ruta a medio plazo.

Paralelamente, la empresa se encuentra inmersa en un proceso de búsqueda de financiación externa por primera vez. Según fuentes citadas por medios como The Wall Street Journal, DeepSeek estaría preparando una ronda de en torno a 300 millones de dólares que podría valorar la compañía en unos 20.000 millones, una cifra que refleja la expectativa que genera su tecnología, pero también la necesidad de capital para seguir escalando. En ese contexto, incluso disputas de inversores clave han cobrado relevancia.

Impacto potencial en Europa y oportunidades de adopción

Para el ecosistema europeo, la llegada de DeepSeek V4 se produce en un momento en el que empresas e instituciones públicas están evaluando alternativas de IA que encajen con el nuevo marco regulatorio (incluido el futuro desarrollo del AI Act) y que permitan cierto grado de control sobre los modelos utilizados.

El hecho de que V4 se ofrezca como modelo de pesos abiertos facilita que equipos técnicos en España y el resto de Europa puedan auditar, adaptar y desplegar el sistema en infraestructuras propias o en nubes que cumplan con los requisitos locales de protección de datos. Esto puede ser especialmente atractivo en sectores como el financiero, el legal o el sanitario, donde el cumplimiento normativo es crítico.

Su combinación de ventana de contexto de 1 millón de tokens, costes por token muy reducidos y buen rendimiento en programación lo convierte en un candidato interesante para proyectos de modernización de legacy, asistentes de desarrollo de software o herramientas internas de análisis documental masivo en grandes organizaciones europeas.

No obstante, la procedencia china del modelo y las tensiones geopolíticas actuales obligan a valorar con calma implicaciones de seguridad, gobernanza y dependencia tecnológica. Las instituciones europeas, que ya han mostrado cautela con el uso de determinadas plataformas extranjeras en entornos sensibles, probablemente estudiarán con detalle el encaje de DeepSeek V4 en su estrategia de IA.

A día de hoy, DeepSeek V4 se posiciona como un actor muy serio dentro del panorama de IA abierta de alto nivel, con argumentos sólidos en coste, escala y capacidades técnicas. Falta por ver hasta qué punto las pruebas independientes y la experiencia de uso real confirman las promesas de la compañía, pero el movimiento ya ha añadido presión tanto a los gigantes estadounidenses como a otros competidores chinos, y ofrece a Europa una nueva pieza a considerar en su propio mapa de la inteligencia artificial.



from Actualidad Gadget https://ift.tt/BytNj6s
via IFTTT

No hay comentarios:

Publicar un comentario