Gemini 2.5 Computer Use: модель, которая сама кликает по экрану
Google представил специализированную модель Gemini 2.5 Computer Use, доступную через API. В отличие от обычных языковых моделей, которые генерируют текст, эта модель умеет «видеть» экран, распознавать элементы интерфейса и совершать действия: кликать по кнопкам, заполнять поля форм, навигировать между страницами.
Модель построена на базе Gemini 2.5 Pro и оптимизирована для сценариев, где AI-агент должен выполнить задачу, взаимодействуя с реальным программным интерфейсом — будь то веб-сайт, десктопное приложение или корпоративная ERP-система. На внутренних бенчмарках Google модель показала лучшие результаты среди аналогов.
Практическое применение: автоматизация рутинных процессов, которые до сих пор требовали ручного ввода. Обновление записей в CRM, заполнение отчётов, навигация по многостраничным формам — задачи, на которые сотрудники тратят часы, агент выполняет за минуты.


