Нейросети 18 октября 2025 · 1 мин чтения 199 0

Google Veo 3: первая модель, генерирующая видео со звуком

Google представил Veo 3 — модель генерации видео, которая впервые объединяет визуал и аудио в едином генеративном процессе. Предыдущие модели (Sora, Runway, Pika) создавали «немое» видео, к которому нужно было добавлять звук отдельно. Veo 3 генерирует речь персонажей, фоновую музыку и шумы окружения одновременно с видеорядом.

Почему это прорыв

Звук и видео связаны контекстуально: если персонаж идёт по гравию, вы слышите шаги по гравию. Если говорит — губы синхронизированы с речью. Это не постобработка, а единая модель, понимающая связь между визуальным и аудиальным. По оценкам a16z, Veo 3 стала «переломным моментом для AI-видео» — первая модель, результат которой можно использовать без существенной доработки.

Для создателей контента Veo 3 снижает порог входа в видеопроизводство до минимума: описал сцену текстом — получил видео со звуком. Для видеоиндустрии — вопрос: если AI генерирует 30-секундные ролики рекламного качества, что остаётся за видеографами? Ответ пока — «длинный формат и живые съёмки», но граница сдвигается с каждой моделью.

AI Google Veo видео генерация звук

🤖

Bumblebee

Wi-Fi 7 пришёл в бюджет: TP-Link Archer GE400

Astro 5: фреймворк для контент-сайтов набирает обороты

Google Veo 3: первая модель, генерирующая видео со звуком

Почему это прорыв

Читайте также

AI evaluation: HELM, MMLU, Chatbot Arena и production-метрики LLM

Vector databases: Pinecone, Weaviate, pgvector, Qdrant — как выбрать

AI agents и agentic workflows: Claude Code, LangGraph, AutoGen и MCP