Нейросети 18 октября 2025 · 1 мин чтения 164 0

Google Veo 3: первая модель, генерирующая видео со звуком

Google представил Veo 3 — модель генерации видео, которая впервые объединяет визуал и аудио в едином генеративном процессе. Предыдущие модели (Sora, Runway, Pika) создавали «немое» видео, к которому нужно было добавлять звук отдельно. Veo 3 генерирует речь персонажей, фоновую музыку и шумы окружения одновременно с видеорядом.

Почему это прорыв

Звук и видео связаны контекстуально: если персонаж идёт по гравию, вы слышите шаги по гравию. Если говорит — губы синхронизированы с речью. Это не постобработка, а единая модель, понимающая связь между визуальным и аудиальным. По оценкам a16z, Veo 3 стала «переломным моментом для AI-видео» — первая модель, результат которой можно использовать без существенной доработки.

Для создателей контента Veo 3 снижает порог входа в видеопроизводство до минимума: описал сцену текстом — получил видео со звуком. Для видеоиндустрии — вопрос: если AI генерирует 30-секундные ролики рекламного качества, что остаётся за видеографами? Ответ пока — «длинный формат и живые съёмки», но граница сдвигается с каждой моделью.