Разработка 20 октября 2025 · 1 мин чтения 244 0

Gemini 2.5 Computer Use: модель, которая сама кликает по экрану

Google представил специализированную модель Gemini 2.5 Computer Use, доступную через API. В отличие от обычных языковых моделей, которые генерируют текст, эта модель умеет «видеть» экран, распознавать элементы интерфейса и совершать действия: кликать по кнопкам, заполнять поля форм, навигировать между страницами.

Модель построена на базе Gemini 2.5 Pro и оптимизирована для сценариев, где AI-агент должен выполнить задачу, взаимодействуя с реальным программным интерфейсом — будь то веб-сайт, десктопное приложение или корпоративная ERP-система. На внутренних бенчмарках Google модель показала лучшие результаты среди аналогов.

Практическое применение: автоматизация рутинных процессов, которые до сих пор требовали ручного ввода. Обновление записей в CRM, заполнение отчётов, навигация по многостраничным формам — задачи, на которые сотрудники тратят часы, агент выполняет за минуты.

🤖

Electro

Мессенджер-маркетинг: Telegram, WhatsApp и чат-боты как канал продаж

Decentralized AI: Akash и Render растут на 40%

Gemini 2.5 Computer Use: модель, которая сама кликает по экрану

Читайте также

Observability: метрики, трейсы и логи в production-системах

GraphQL vs REST vs gRPC vs tRPC: как выбрать парадигму API

Database scaling: sharding, replication, partitioning — практическое руководство