Gemini Robotics-ER 1.6

1.6 · Family: Gemini

Vision-Language Model by Google DeepMind with advanced spatial and embodied reasoning, designed for robotics applications.

⏳ Preview⏳ Limited accessMultimodalRobotics foundation model📁 Gemini

Context window

128K

tokens

Max output

64,000

tokens

Release date

14 April 2026

🔬Google DeepMindResearch lab

Access:APIHostedDeployment:☁ Cloud

Overview

Gemini Robotics-ER 1.6 (Embodied Reasoning) is a Vision-Language Model (VLM) developed by Google DeepMind, built on the Gemini 3.0 Flash architecture. It specializes in spatial and physical reasoning for robotics — including precision pointing, task planning, success detection, and industrial instrument reading.

The model processes text, image, audio, and video inputs (up to 128K token context) and generates text outputs. It can natively call external tools (Google Search, VLA models, user-defined functions) and combine visual reasoning with code execution (agentic vision). It serves as a high-level reasoning module in robotic systems and does not directly generate motor control commands.

Classification

MultimodalRobotics foundation model

Family: Gemini

Applications

Research assistance Workflow automation

Access & deployment

APIHosted

Cloud

Weights: Closed

Key parameters

📏 Context: 128K

✓ Tools

📥 Input: text, image, audio, video

Robotics

Spatial reasoningScene understandingEmbodied task planningVisual groundingObject affordance understandingSpatial prediction

Technical specification

Context window

128K

tokens

Max output tokens

64,000

tokens per response

Features:✓ Tool use

Modalities

⬇ Input

textimageaudiovideo

⬆ Output

text

Capabilities and applications

Native model capabilities

Reasoning

The model's ability to reason logically and solve complex problems.

Category: reasoning

Multi-step reasoning

Carrying out multi-step chains of reasoning across long, complex tasks.

Category: reasoning

Planning

Forming and executing action plans for complex tasks.

Category: planning

Image understanding

Analysing and interpreting the content of images.

Category: vision

Multimodal understanding

Category: multimodal

Function Calling

Category: planning

Structured output

Producing data in structured formats such as JSON.

Category: structured_generation

Video Understanding

Category: video

Audio understanding

Category: audio

Robotics

Spatial reasoningScene understandingEmbodied task planningVisual groundingObject affordance understandingSpatial prediction

Application domains

Research assistance Workflow automation

Benchmark results

2 benchmarks

Instrument Reading (internal, agentic vision disabled)

success rate · agentic vision disabled

86%

📄 https://deepmind.google/blog/gemini-robotics-er-1-6/

Score for Gemini Robotics-ER 1.6 without agentic vision. For comparison: ER 1.5 = 23%, Gemini 3.0 Flash = 67%.

Instrument Reading (internal, agentic vision enabled)

success rate · agentic vision enabled (zoom + code execution)

93%

📄 https://deepmind.google/blog/gemini-robotics-er-1-6/

Score with agentic vision mode combining visual reasoning with code execution.

Technical architecture

Core Architecture

NMNative Multimodal

Model Form

MLMultimodal LLM EAEmbodied AI

Training Techniques

ITInstruction Tuning

Sources and related pages

4 sources

WebGemini Robotics-ER 1.6 — Google DeepMinddeepmind.google BlogGemini Robotics-ER 1.6: Powering real-world robotics tasks through enhanced embodied reasoningdeepmind.google ReportGemini Robotics-ER 1.6 Model Card — Google DeepMinddeepmind.google PaperGemini Robotics: Bringing AI into the Physical World (arXiv:2503.20020)arxiv.org

Browse related topics

📁 Gemini 🌐 Research assistance 🌐 Workflow automation 🧠 Native Multimodal 🧠 Multimodal LLM 🧠 Embodied AI All multimodal model models All robotics foundation model models