NVIDIA presenta Gated DeltaNet-2: atención lineal con control desacoplado de memoria
24 de mayo de 2026 · Fuente original: MarkTechPost
NVIDIA lanzó Gated DeltaNet-2, una arquitectura de atención lineal que mejora la gestión de memoria en modelos de lenguaje al separar el control de borrado y escritura de datos. Con 1.3B parámetros, supera a Mamba-2 y Mamba-3 en tareas de razonamiento y recuperación de contexto extendido.
Problema de la atención lineal tradicional
Los modelos de lenguaje basados en transformadores enfrentan un cuello de botella fundamental: el cache de pares clave-valor (KV) crece sin límite con la longitud de la secuencia, consumiendo memoria exponencialmente. La atención lineal intenta resolver esto comprimiendo ese cache en un estado recurrente de tamaño fijo. Sin embargo, actualizar esta memoria sin destruir las asociaciones ya aprendidas ha sido históricamente difícil de lograr de forma efectiva.
La innovación de Gated DeltaNet-2
ENVIDIA presentó Gated DeltaNet-2, que introduce una mejora conceptual crucial sobre generaciones anteriores. Mientras que modelos previos como Gated DeltaNet y KDA utilizaban un único gate escalar para controlar tanto el borrado de contenido antiguo como la escritura de información nueva, la nueva arquitectura desacopla ambas operaciones: implementa una puerta de borrado sensible a canal (b_t) en el eje de las claves y una puerta de escritura sensible a canal (w_t) en el eje de los valores. Este cambio aparentemente sutil tiene implicaciones profundas para la calidad del modelo.
Resultados experimentales
En pruebas de validación, Gated DeltaNet-2 con 1.3 mil millones de parámetros entrenado en 100 mil millones de tokens de FineWeb-Edu demostró ventajas consistentes sobre competidores establecidos: superó a Mamba-2, Mamba-3 y modelos anteriores de la familia DeltaNet en tareas de modelado de lenguaje, razonamiento de sentido común y recuperación de contexto extendido. Las ganancias más notables aparecieron en pruebas especializadas como RULER S-NIAH (evaluación de aguja en pajar) y recuperación multi-clave de aguja en pajar, dominios donde la retención precisa de información contextual es crítica.
Implicaciones técnicas y prácticas
La arquitectura de atención lineal es particularmente valiosa para escenarios donde el contexto es muy extenso: procesamiento de documentos largos, análisis de conversaciones históricas complejas o inferencia en dispositivos con restricciones de memoria. El desacoplamiento de operaciones de memoria permite que cada eje se especialize: las claves manejan qué información se olvida, mientras que los valores controlan qué se retiene activamente. Esto refleja una comprensión más sofisticada de cómo los modelos deberían gestionar la información a lo largo del tiempo.
Relevancia para la región
En contextos de América Latina donde la infraestructura computacional es frecuentemente limitada, la eficiencia de memoria es un factor crítico de adopción. Modelos de atención lineal como DeltaNet-2 permiten ejecutar sistemas de IA avanzados en servidores menos poderosos o incluso en edge devices, reduciendo dependencia de llamadas a APIs en nube y mejorando latencia en aplicaciones críticas.
Este resumen es un análisis original. Para leer la noticia completa visita la fuente original: MarkTechPost →
Sigue leyendo en Inteligencia Artificial
Nemotron-Labs: Generación de texto a velocidad de luz con modelos de difusión
NVIDIA presenta Nemotron-Labs Diffusion, una arquitectura innovadora que acelera significativamente la generación de texto mediante modelos de difusión. La tecnología promete reducir latencias en aplicaciones de IA generativa para infraestructuras industriales y empresariales.
Fuente: Hugging Face Blog
OpenRouter duplica su valuación a $1.3B tras ronda de inversión de $113M
OpenRouter, plataforma que integra múltiples modelos de IA, alcanzó una valuación de $1.3 mil millones tras recaudar $113 millones en su Serie B liderada por CapitalG. El crecimiento de 5x en uso en seis meses valida el modelo de acceso unificado a diferentes LLMs.
Fuente: TechCrunch AI
Together AI libera OSCAR: cuantización de caché KV de 2 bits para LLMs de contexto largo
Together AI ha abierto el código de OSCAR, un sistema de cuantización INT2 para caché de pares clave-valor (KV) que optimiza el servicio de LLMs con contextos extensos. El método logra reducir memoria en 8× y acelerar decodificación hasta 3× manteniendo precisión cercana a modelos sin comprimir.
Fuente: MarkTechPost