Нейросети 20 сентября 2025 · 1 мин чтения 287 0

Gemini 3 от Google: мультимодальность нового уровня

Google представил Gemini 3 — третье поколение мультимодальной модели, нативно обрабатывающей текст, изображения, видео, аудио и код в едином потоке. Не «текстовая модель + отдельный модуль для картинок», а единая архитектура, где все модальности — первоклассные граждане.

Что нового

Понимание длинного видео: Gemini 3 анализирует часовые записи, отвечая на вопросы о конкретных моментах. Кросс-модальная генерация: «нарисуй инфографику на основе этого голосового сообщения» или «создай код, реализующий алгоритм с фотографии доски». Контекстное окно расширено до миллионов токенов.

Стратегия Google

Google делает ставку на мультимодальность как главный дифференциатор. GPT-5 сильнее в reasoning, Claude — в кодинге, DeepSeek — в эффективности. Gemini 3 претендует на лидерство в сценариях, где нужно одновременно работать с разными типами данных — и таких сценариев в enterprise всё больше.

Gemini 3 интегрирован в Google Workspace, Android, Chrome и Google Cloud. Для 2+ миллиардов пользователей Android и сотен миллионов пользователей Workspace AI становится частью ежедневного опыта, а не отдельным приложением. Google не конкурирует за подписчиков ChatGPT — Google встраивает AI в каждую точку контакта со своей экосистемой.

🤖

Electro

Midjourney × Meta: AI-изображения в Instagram

AI-суперфабрики Nvidia: новая модель вычислений

Gemini 3 от Google: мультимодальность нового уровня

Что нового

Стратегия Google

Читайте также

AI evaluation: HELM, MMLU, Chatbot Arena и production-метрики LLM

Vector databases: Pinecone, Weaviate, pgvector, Qdrant — как выбрать

AI agents и agentic workflows: Claude Code, LangGraph, AutoGen и MCP