Разработка 20 октября 2025 · 1 мин чтения 190 0

Gemini 2.5 Computer Use: модель, которая сама кликает по экрану

Google представил специализированную модель Gemini 2.5 Computer Use, доступную через API. В отличие от обычных языковых моделей, которые генерируют текст, эта модель умеет «видеть» экран, распознавать элементы интерфейса и совершать действия: кликать по кнопкам, заполнять поля форм, навигировать между страницами.

Модель построена на базе Gemini 2.5 Pro и оптимизирована для сценариев, где AI-агент должен выполнить задачу, взаимодействуя с реальным программным интерфейсом — будь то веб-сайт, десктопное приложение или корпоративная ERP-система. На внутренних бенчмарках Google модель показала лучшие результаты среди аналогов.

Практическое применение: автоматизация рутинных процессов, которые до сих пор требовали ручного ввода. Обновление записей в CRM, заполнение отчётов, навигация по многостраничным формам — задачи, на которые сотрудники тратят часы, агент выполняет за минуты.