Robots que piensan y actúan con Gemini Robotics 1.5

Los robots ahora pueden compartir habilidades aprendidas entre sí sin necesidad de reentrenamiento.
DeepMind lanza robots que razonan

Google DeepMind ha presentado los modelos Gemini Robotics 1.5 y Gemini Robotics-ER 1.5, dos avances que marcan un salto hacia robots que razonan, capaces de operar en entornos físicos con autonomía y comprensión avanzada. Estos modelos están diseñados para superar uno de los mayores retos de la robótica: ejecutar tareas complejas de múltiples pasos con contexto espacial, lingüístico y motor.

Colaboración entre modelos para tareas físicas complejas

Gemini Robotics 1.5 se basa en una arquitectura visión-lenguaje-acción (VLA) que permite a los robots convertir entradas visuales y comandos naturales en movimientos físicos coordinados. En paralelo, Gemini Robotics-ER 1.5 actúa como un sistema de razonamiento embebido que genera planes estructurados, consulta herramientas digitales y supervisa el progreso de cada tarea. Juntos forman una pila agencial que ofrece capacidad de reflexión y adaptación en escenarios reales.

Comprensión espacial y aprendizaje transferible

El modelo ER 1.5 ha demostrado rendimiento de primera en pruebas como ERQA, Point-Bench y MindCube, destacando por su habilidad para estimar el contexto físico y responder con precisión.

Además, Gemini Robotics 1.5 incorpora la capacidad de aprendizaje entre implementaciones, permitiendo que habilidades adquiridas por un robot sean reutilizadas en otros sistemas físicos sin reentrenamiento específico.

Aplicaciones reales para robots que razonan

La nueva arquitectura permite que los robots “piensen antes de actuar” generando razonamientos internos en lenguaje natural, lo que aporta transparencia al proceso de toma de decisiones.

Desde clasificar ropa por colores hasta separar residuos según normativas locales, los robots pueden razonar, buscar información y ejecutar acciones físicas adaptadas a cada entorno.

YouTube video

Gemini Robotics 1.5 lleva a los robots al siguiente nivel. Fuente: Google DeepMind

Enfoque seguro y responsable

DeepMind ha implementado salvaguardas semánticas y físicas integradas en estos modelos. Gemini Robotics-ER 1.5 utiliza marcos de seguridad como ASIMOV para evitar errores críticos en decisiones físicas. Además, incorpora políticas de respeto al usuario y mecanismos de prevención de colisiones en tiempo real.

Gemini Robotics-ER 1.5 ya está disponible mediante la API de Gemini en Google AI Studio. Por su parte, Gemini Robotics 1.5 está en fase de despliegue inicial con socios estratégicos. Esta apertura permitirá que desarrolladores integren agentes físicos inteligentes en productos reales.

Fuente y foto: Google DeepMind