Microsoft presenta Webwright: agente IA para automatización web en terminal
24 de mayo de 2026 · Fuente original: MarkTechPost
Microsoft Research lanzó Webwright, un framework de agente basado en LLM que automatiza tareas web mediante scripts Playwright reutilizables. El sistema alcanza 60.1% en el benchmark Odysseys, duplicando el desempeño base de GPT-5.4.
Contexto: Automatización web con agentes de IA
La automatización de procesos web ha sido históricamente dependiente de secuencias de clics y puntos de referencia visual frágiles. Microsoft Research aborda este problema con Webwright, un framework que permite que agentes impulsados por modelos de lenguaje grandes generen y ejecuten scripts web reutilizables usando Playwright, la librería estándar de automatización multiplataforma.
Qué es Webwright
Webwright es un agente terminal-nativo que reemplaza la grabación de acciones de clic con la generación automática de código. Implementado en aproximadamente 1,000 líneas de código Python, el framework organiza la lógica en tres módulos principales que trabajan en un único bucle de agente. Esta arquitectura permite que GPT-5.4 comprenda contextos web complejos y genere instrucciones ejecutables en lugar de depender de selectores visuales frágiles.
La herramienta transforma la automatización web en un problema de síntesis de código, donde el LLM actúa como intermediario entre objetivos en lenguaje natural y scripts de Playwright reproducibles. Esta aproximación es especialmente valiosa en ambientes empresariales donde la mantenibilidad y la auditoría del código de automatización son críticas.
Resultados de desempeño
Los resultados cuantitativos demuestran un salto significativo en capacidades. En el benchmark Odysseys, que evalúa tareas web de horizonte largo y complejidad variable, Webwright alcanza 60.1%, casi duplicando el desempeño base de GPT-5.4 sin optimizaciones (33.5%). En Online-Mind2Web, obtiene 86.7%, la puntuación más alta reportada entre recetas de automatización de código abierto.
Estos números reflejan que el framework no solo genera código funcional, sino que maneja contextos de navegación multi-paso, manejo de errores y adaptación a variaciones en la estructura de sitios web.
Implicaciones para automatización industrial en Latinoamérica
Webwright abre nuevas posibilidades para empresas manufactureras, logísticas y de servicios compartidos en la región. Muchas operaciones latinoamericanas dependen de integraciones entre sistemas legacy y plataformas web SaaS (ERP, CRM, portales de proveedores). Automatizar estas tareas ha sido costoso: requería desarrolladores especializados en RPA o scripting manual.
Una arquitectura terminal-nativa como Webwright se integra naturalmente con sistemas de control industrial existentes, middleware de automatización y flujos de orquestación. Los equipos de IT pueden versionar, auditar y mantener scripts generados por IA como código regular, eliminando la opacidad típica de herramientas RPA visuales.
Además, la capacidad de adaptar el framework a dominios específicos (órdenes de compra, conciliación bancaria, recopilación de datos de proveedores) reduce tiempos de implementación y ciclos de reentrenamiento, factores críticos en mercados con recursos técnicos limitados.
Próximos pasos
Microsoft Research continúa mejorando la robustez del agente frente a cambios en interfaces web y contextos más complejos. La publicación de resultados en código abierto sugiere que la comunidad podrá adaptar y extender Webwright, acelerando adopción en contextos empresariales específicos de Latinoamérica.
Este resumen es un análisis original. Para leer la noticia completa visita la fuente original: MarkTechPost →
Sigue leyendo en Inteligencia Artificial
Cohere presenta Command A+: modelo MoE de 218B parámetros para flujos de trabajo con agentes IA
Cohere lanzó Command A+, un modelo abierto de Mixture-of-Experts disperso con 218 mil millones de parámetros que consolida cuatro variantes anteriores. Funciona con apenas dos GPUs H100 y soporta 48 idiomas, posicionándose como el primer modelo de razonamiento multimodal de la empresa.
Fuente: MarkTechPost
Google lanza Gemini 3.5 Flash: modelo IA 4x más rápido y 50% más económico
Google presentó Gemini 3.5 Flash en su conferencia I/O 2026, un modelo de lenguaje optimizado para agentes de IA y desarrollo de código que supera al modelo insignia en benchmarks relevantes mientras reduce significativamente latencia y costos operativos.
Fuente: MarkTechPost
OpenRouter duplica su valuación a $1.3B tras ronda de inversión de $113M
OpenRouter, plataforma que integra múltiples modelos de IA, alcanzó una valuación de $1.3 mil millones tras recaudar $113 millones en su Serie B liderada por CapitalG. El crecimiento de 5x en uso en seis meses valida el modelo de acceso unificado a diferentes LLMs.
Fuente: TechCrunch AI