Inteligencia Artificial·18 may 2026
Sesgo de frecuencia en SGD y cómo el optimizador Adam lo corrige
Los modelos de lenguaje modernos enfrentan un desafío oculto durante el entrenamiento: tokens frecuentes reciben actualizaciones de gradiente constantes, mientras que palabras raras quedan rezagadas. Adam ofrece una solución mediante normalización adaptativa de tasas de aprendizaje.
Fuente: MarkTechPost