Etiqueta

#cuantizacion

2 noticias relacionadas con esta etiqueta.

Inteligencia Artificial·25 may 2026

Together AI libera OSCAR: cuantización de caché KV de 2 bits para LLMs de contexto largo

Together AI ha abierto el código de OSCAR, un sistema de cuantización INT2 para caché de pares clave-valor (KV) que optimiza el servicio de LLMs con contextos extensos. El método logra reducir memoria en 8× y acelerar decodificación hasta 3× manteniendo precisión cercana a modelos sin comprimir.

Fuente: MarkTechPost

Inteligencia Artificial·17 may 2026

Compresión y evaluación de LLMs con cuantización FP8, GPTQ y SmoothQuant

Un tutorial práctico demuestra técnicas de cuantización post-entrenamiento para reducir el tamaño y latencia de modelos de lenguaje ajustados con instrucciones, comparando estrategias de compresión y su impacto en rendimiento.

Fuente: MarkTechPost