Gemini Robotics 1.5

1.5 · Family: Gemini

Vision-Language-Action (VLA) model by Google DeepMind that converts visual inputs and language instructions into motor commands for robots.

⏳ Preview⏳ Limited accessMultimodalRobotics foundation modelVision-Language-Action model📁 Gemini

Context window

32K

tokens

Release date

14 April 2026

🔬Google DeepMindResearch lab

Access:HostedDeployment:☁ Cloud

Overview

Gemini Robotics 1.5 is Google DeepMind's latest Vision-Language-Action (VLA) model, building on the original Gemini Robotics. It processes visual input (robot camera images) and text instructions and outputs motor commands to control robot joints. This is a key distinction from VLM/LLM models: the model does not describe what it sees, but directly controls physical motion.

The model generalizes across new instructions, actions, and visual contexts, and a single model can operate across diverse robotic platforms (ALOHA, Bi-arm Franka, humanoid Apptronik Apollo). Paired with Gemini Robotics-ER 1.6, it forms a complete system for physical robot control.

Classification

MultimodalRobotics foundation modelVision-Language-Action model

Family: Gemini

Applications

Workflow automation Research assistance

Access & deployment

Hosted

Cloud

Weights: Closed

Key parameters

📏 Context: 32K

📥 Input: text, image

Robotics

Dexterous manipulationRobot manipulationRobot controlEmbodied task planningVisual groundingBimanual manipulationMotion planning

Technical specification

Context window

32K

tokens

Modalities

⬇ Input

textimage

⬆ Output

textaction

Capabilities and applications

Native model capabilities

Reasoning

The model's ability to reason logically and solve complex problems.

Category: reasoning

Multi-step reasoning

Carrying out multi-step chains of reasoning across long, complex tasks.

Category: reasoning

Planning

Forming and executing action plans for complex tasks.

Category: planning

Image understanding

Analysing and interpreting the content of images.

Category: vision

Multimodal understanding

Category: multimodal

Multilingual

Competence in many natural languages (from a few to over a hundred): understanding, generation, translation, and code-switching within a single conversation. Frontier models support a wide range of languages with comparable quality.

Category: language

Robotics

Dexterous manipulationRobot manipulationRobot controlEmbodied task planningVisual groundingBimanual manipulationMotion planning

Application domains

Workflow automation Research assistance

Benchmark results

5 benchmarks

Generalization: In-Distribution (internal)

progress score · progress score, robotic manipulation tasks

0.830-1