Google Veo 3: первая модель, генерирующая видео со звуком
Google представил Veo 3 — модель генерации видео, которая впервые объединяет визуал и аудио в едином генеративном процессе. Предыдущие модели (Sora, Runway, Pika) создавали «немое» видео, к которому нужно было добавлять звук отдельно. Veo 3 генерирует речь персонажей, фоновую музыку и шумы окружения одновременно с видеорядом.
Почему это прорыв
Звук и видео связаны контекстуально: если персонаж идёт по гравию, вы слышите шаги по гравию. Если говорит — губы синхронизированы с речью. Это не постобработка, а единая модель, понимающая связь между визуальным и аудиальным. По оценкам a16z, Veo 3 стала «переломным моментом для AI-видео» — первая модель, результат которой можно использовать без существенной доработки.
Для создателей контента Veo 3 снижает порог входа в видеопроизводство до минимума: описал сцену текстом — получил видео со звуком. Для видеоиндустрии — вопрос: если AI генерирует 30-секундные ролики рекламного качества, что остаётся за видеографами? Ответ пока — «длинный формат и живые съёмки», но граница сдвигается с каждой моделью.