
Deepseek R2: el nuevo modelo de IA puede costar un 97% más bajo y el uso de hardware de Huawei

Han surgido rumores en las últimas semanas Deepseek r2el nuevo modelo de inteligencia artificial desarrollado por la compañía china Veterano. Según la información publicada por fuentes chinas y reflejada internacionalmente, R2 puede representar un nuevo cambio de escenario en el sector de IA, principalmente debido a su potencial costo reducido y el uso de chips locales de Huawei.


Aunque no hay una confirmación oficial de Deepseek, la especulación indica que el modelo fue entrenado predominantemente con infraestructura basada en aceleradores Ascender 910bde Huawei, alcanzando una tasa de uso del 82% en grupos y el rendimiento de hasta 512 petaflops en precisión FP16.
El modelo adopta la arquitectura híbrida y expande los parámetros
Según las filtraciones, el Deepseek r2 Utilizará su propia versión de arquitectura MOE híbrido (mezcla de expertos).
Este modelo combina mecanismos de activación avanzados con capas densas, que busca optimizar las tareas de alta complejidad. La nueva estructura técnica permitiría que R2 alcance 1.2 billones de parámetrosdoblar la capacidad en relación con el Deepseek r1.
Aunque el número absoluto de parámetros es alto, la activación dinámica esperada indica que durante las inferencias, solo 78 mil millones de parámetros se procesarían activamente, lo que contribuiría al aumento de la eficiencia y la reducción de los costos operativos.
El aspecto más destacado en los rumores es el costo por token. La información señala que el Deepseek r2 puede operar con valores 97.3% más bajo hacia GPT-4O desde Abierto.
La tasa estimada sería $ 0.07 por millón de tokens de entrada y $ 0.27 por millón de tokens de salida.


Este nivel de precio representaría una ventaja competitiva significativa para Deepseek, especialmente en el mercado corporativo, donde el costo de operación de modelos de idiomas grandes (LLM) es un factor decisivo.
Si se confirma, estos números posicionarían R2 como la opción más económica entre los modelos a gran escala disponibles.
Otro punto relevante mencionado en los informes es que el Deepseek r2 habría sido entrenado con un corpus de 5.2 petabytes Datos de alta calidad, que cubren sectores verticales como finanzas, derecho y propiedad intelectual.
La compañía habría utilizado técnicas de destilación semántica en múltiples fases, lo que aumenta la tasa de adhesión a las instrucciones para 89.7% En pruebas con punto de referencia C-Eval 2.0.


En el campo de la multimodalidad, el modelo también habría evolucionado.
En las tareas de visión computacional, el Deepseek R2 habría utilizado un nuevo módulo basado en transformador de VIT y alcanzó una puntuación de mapa de 92.4 en la base de datos de coco, que es una de las principales pruebas para Mida la precisión de los modelos que reconocen las imágenes.
Este resultado excede los números obtenidos por arquitecturas anteriores, como el clip, lo que indica que Deepseek R2 puede ser más preciso al identificar e interpretar imágenes.
Impacto potencial en el mercado global de IA
La posible liberación de Deepseek r2 Trae implicaciones relevantes para el mercado de inteligencia artificial. Combinando el alto rendimiento, la capacitación nacional en infraestructura y el costo reducido, el modelo puede presionar a las compañías occidentales para revisar sus estrategias de precios y eficiencia.
Aún así, es importante reforzar que toda esta información sea Basado en fugas e informes preliminares.
El escenario final puede variar, dependiendo de la confirmación oficial de la Veterano y el desempeño real de R2 en pruebas públicas.
Fuente: Adrenalina.


Únete al grupo Connected World Ofertas
Echa un vistazo a las principales ofertas de teléfonos inteligentes, televisores y otros electrónicos que encontramos a través de Internet. Al participar en nuestro grupo, recibe promociones diarias y tiene acceso temprano a cupones de descuento.
Ingrese al grupo y disfrute de las promociones