Gemini 3 от Google: мультимодальность нового уровня
Google представил Gemini 3 — третье поколение мультимодальной модели, нативно обрабатывающей текст, изображения, видео, аудио и код в едином потоке. Не «текстовая модель + отдельный модуль для картинок», а единая архитектура, где все модальности — первоклассные граждане.
Что нового
Понимание длинного видео: Gemini 3 анализирует часовые записи, отвечая на вопросы о конкретных моментах. Кросс-модальная генерация: «нарисуй инфографику на основе этого голосового сообщения» или «создай код, реализующий алгоритм с фотографии доски». Контекстное окно расширено до миллионов токенов.
Стратегия Google
Google делает ставку на мультимодальность как главный дифференциатор. GPT-5 сильнее в reasoning, Claude — в кодинге, DeepSeek — в эффективности. Gemini 3 претендует на лидерство в сценариях, где нужно одновременно работать с разными типами данных — и таких сценариев в enterprise всё больше.
Gemini 3 интегрирован в Google Workspace, Android, Chrome и Google Cloud. Для 2+ миллиардов пользователей Android и сотен миллионов пользователей Workspace AI становится частью ежедневного опыта, а не отдельным приложением. Google не конкурирует за подписчиков ChatGPT — Google встраивает AI в каждую точку контакта со своей экосистемой.