Together AI libera OSCAR: cuantización de caché KV de 2 bits para LLMs de contexto largo
Together AI ha abierto el código de OSCAR, un sistema de cuantización INT2 para caché de pares clave-valor (KV) que optimiza el servicio de LLMs con contextos extensos. El método logra reducir memoria en 8× y acelerar decodificación hasta 3× manteniendo precisión cercana a modelos sin comprimir.
Fuente: MarkTechPost