В середине 2025 года компания Google представила третью версию собственного генератора видео — Veo. Новая модель не просто создает качественный видеоряд, но и сопровождает его реалистичной аудиодорожкой — звуками окружающей среды и диалогами персонажей.
В какой-то степени Google создала нечто новое, нечто революционное — то, что способно сделать квантовый скачок в области генерации видео. То, благодаря чему отличать настоящие видео от AI-сгенерированных станет намного сложнее.
Именно поэтому так важно разобраться, что из себя представляет новая нейросеть Veo 3 и какие специальные инструменты для работы с ней предлагает компания Google. Об этом и поговорим в данной статье.
Презентация нейросети Google Veo 3 (источник: Google I/O)
cloud
Google Veo — это генеративная модель для создания видео, разработанная и выпущенная компанией Google в середине 2024 года. Главное ее новшество — нативная возможность генерации аудио: звуковых эффектов, фоновой музыки и диалогов с синхронизацией движения губ.
Кадр одного из официальных видео, сгенерированных с помощью Google Veo 3
Звуковая дорожка сгенерированных видео автоматически подстраивается под контекст сцены, по мере надобности добавляя соответствующие эффекты: звуки природы, городской фон, музыкальное сопровождение и даже человеческую речь со свойственными персонажам наречиями и диалектами.
Таким образом, искусственный интеллект Veo 3 сочетает в себе качественную картинку, реалистичную физику и согласованное аудио.
Обновленная модель Veo 3 обладает рядом особенностей, которые отличают ее от других AI-сервисов для генерации видео:
Такой набор исключительных характеристик делает Google Veo 3 идеальным инструментом для генерации и кинематографических, и мультипликационных, и любых других видеорядов с высокой визуальной динамикой и глубокой сюжетной линией.
За счет этих особенностей Veo 3 уже можно использовать в профессиональной сфере, будь то контент для UGC-платформ (например, YouTube), короткая реклама или полноценное кино.
Еще один кадр из официального видео, сгенерированного с помощью Google Veo 3
Например, кинорежиссер Дэйв Кларк уже использовал Veo 2 и Veo 3 при создании некоторых из своих короткометражных фильмов.
Другой режиссер, Джун Лау, тоже возлагает большие надежды на передовую модель Google, используя Veo 3 в создании короткометражного фильма Dear Strangers.
Еще один фильммейкер, Йонатан Дор, создал с помощью Veo 3 собственный короткий фильм с участием вымышленных инфлюенсеров разных эпох — The History of Influencers.
В общем, случаев, когда режиссеры и художники интегрируют AI-инструменты Google в процессы создания контента становится все больше и больше. Хотя, конечно, для полноценного создания кино возможностей Veo 3 все еще недостаточно — только как дополнительный инструмент.
Новая версия Veo имеет несколько способов генерации видео с использованием разных исходных данных:
При этом, как уже было отмечено ранее, видеролики Veo 3 консолидируют в себе все атрибуты, присущие классическому видео, не сгенерированному компьютером. Стандартное разрешение видео на выходе — 720p. Однако функция апскейлинга позволяет увеличивать это значение до 4К.
Важно отметить, что в «голом» виде использовать Veo 3 нельзя — для этого необходимы дополнительные инструменты Google.
Компания Google предлагает специальный инструмент, объединяющий модели Veo (видео), Imagen (изображения) и Gemini (текст) в едином режиссерском интерфейсе — Flow. По сути, это центральная платформа для создания контента в Google.
С помощью Flow можно более выборочно и точечно редактировать видео: расширять кадры, добавлять новые детали, анимировать отдельные элементы, корректировать движение камеры, хранить стили и многое другое.
Такой редактор идеален для одиночной и ручной работы — он быстро и просто создавает отдельные клипы с мгновенным предварительным просмотром и корректировкой. Всё в одном окне.
При этом Flow требует минимум технических настроек: не нужен облачный аккаунт, биллинг или SDK — генерация видео происходит прямо в визуальном интерфейсе.
Демонстрация графического интерфейса Flow на презентации Google I/O в 2025 году (источник: ZDNET)
С помощью LLM-нейросети Gemini можно генерировать точные промпты для генерации видео через Flow. Говоря проще, Gemini используется в качестве конвертера более человеческих текстовых описаний в более машинные текстовые описания. Хотя в обоих случаях они выполнены на естественном языке и понятны любому человеку.
Например, можно найти картинку в интернете или сгенерировать ее с помощью другого AI (например, Midjorney), прикрепить к сообщению в чат-боте Gemini (или любой другой LLM) и снабдить дополнительным описанием:
Необходим точный промпт для Google Veo 3 для генерации короткого видео из этого изображения, где трое мужчин сзади толкают автомобиль-банан с водителем за рулем, и по мере набора скорости машина-банан окрашивается в желтый цвет.
После этого Gemini сгенерирует полный промпт для генерации видео и снабдит его рядом пояснительных комментариев:
A vintage car, half-peeled banana, driven by a man in a hat, is being pushed by three other men from behind. The car is initially in black and white, but as it gains momentum and the men push harder, the banana part of the car gradually becomes fully ripe yellow. The background shows a field with trees in the distance, also in black and white. Dynamic camera movement, tracking the car as it accelerates.
Таким образом, можно сгенерировать видео на основе референсного изображения, выполнив простую последовательность действий:
Либо можно взять готовое референсное изображение из Интернета:
В более упрощенном варианте можно сгенерировать видео без использования каких-либо референсных изображений в цепочке действий:
Ну или можно написать промпт для генерации видео полностью вручную :)
Тем не менее, в самом Gemini (разумеется, на платных тарифах) тоже можно генерировать видео с помощью Veo 3. Однако, как правило, для создания видеороликов используется Flow — он удобнее и нагляднее. Все-таки Gemini в большей степени заточен для работы с текстом, нежели с видео.
Платформа Vertex AI представляет собой корпоративное решение для масштабных облачных генераций контента и хранения ассетов (assets) — различных медиа-файлов, необходимых для создания изображений и видео.
По сути, это полностью управляемая платформа для разработки, обучения, развертывания и сопровождения ИИ-моделей. Она объединяет все инструменты для всех этапов ML-цикла — от подготовки данных до мониторинга работы моделей.
Интерфейс Vertex AI в рамках глобальной платформы Google Cloud Platform (источник: TechLatest)
Таким образом, Flow обеспечивает удобный и визуальный подход, Gemini — точные релевантные промпты, а Vertex AI — надежную масштабируемую инфраструктуру. Вместе они превращают Veo 3 из сервиса для экспериментов в инструмент для профессионалов, способный решать реальные задачи самых разных проектов.
Разобравшись с устройством основных инструментов, можно поговорить о том, как сгенерировать видео с помощью Veo 3. Прежде всего нужно отметить, что для использования Google Veo 3 необходимо наличие одной из двух платных подписок Google AI:
Никакого другого способа (в рамках экосистемы Google) использовать Veo 3 не существует — необходима платная подписка. Исключением могут стать сторонние сервисы-посредники или Telegram-боты, предлагающие генерацию видео через Veo 3 с оплатой за каждый видеоролик.
Еще один важный момент — Google Veo 3 на русском языке не доступен. Впрочем, это касается любого языка, кроме английского. Редактор Flow имеет только английскую локализацию. Более того, промпты для Veo 3 необходимо писать на английском языке.
Исключениями являются только реплики диалогов — их можно писать как на русском, так и на любом другом языке. При этом Veo 3 идеально передает диалекты описанных персонажей.
Например, при описании речи типичных бабушек, сидящих на лавке, ИИ Google Veo 3 добавит в речь характерный акцент пожилого человека советской эпохи со специфическим произношением гласных и согласных. Например, твердую С на конце слова (клянуС) и О вместо А (гОлОва).
По правде сказать, подобное качество звука и видео с чрезвычайно точным согласованием между собой поражает (а иногда пугает) даже тех людей, которые достаточно близко знакомы с современными технологиями.
Управление генеративной моделью, обладающей такими возможностями, обычно требует дополнительного инструментария для комфортного использования. Поэтому Google предлагает несколько способов взаимодействия с Veo 3, отличающихся разной степенью сложности.
Flow позволяет создавать сцены, контролировать движение камеры, управлять ассетами и монтировать ролики без необходимости обращений к сторонним инструментам.
По сути, это интуитивно понятный визуальный редактор для создания видео через Veo 3. Воспользоваться им несложно:
Это самый базовый функционал платформы Flow. Во многом он похож на работу чат-ботов LLM-сервисов, но только вместо текста генерируется видео. Разумеется, во Flow есть дополнительные инструменты для компоновки видеороликов.
Чтобы сгенерировать видео непосредственно в чат-боте Gemini необходимо выполнить ряд простых действий:
Таким образом, Gemini унифицирует процесс генерации текста (Gemini), изображений (Imagen) и видео (Veo) в одном интерфейсе, что довольно удобно.
Разумеется, для профессиональной работы с видео Gemini недостаточно — потребуется не только Flow, но и профессиональный софт для монтажа. Однако для создания презентаций и визуализации идей Gemini вполне достаточно.
Еще один способ воспользоваться моделью Veo 3 — через Vertex AI. В отличие от Flow, созданного для креативной работы, Vertex AI подходит для профессионального, масштабного и автоматизированного создания контента.
Вот короткая последовательность действий для генерации видео через Vertex AI:
Платформа Vertex AI обеспечивает распределенные вычисления, мониторинг расходов, хранение ассетов и управление ML-процессами — централизованно через Google Cloud.
А за счет REST API платформа позволяет программно запускать генерации сотен видео, интегрируя Veo 3 с приложениями сторонних разработчиков.
Google Veo 3 открывает новые горизонты автоматизированного видеопроизводства, сочетая передовую генерацию аудио и высококачественную визуализацию — оценка ее сильных и слабых сторон поможет выявить оптимальные сценарии применения.
Несмотря на то, что достоинства Veo 3 перевешивают его недостатки, полностью заместить традиционный продакшен модель пока не может. Однако с легкостью способна стать одним из дополнительных инструментов, используемых в связке с классическими программами видеомонтажа и графики.
Подготовили для вас выгодные тарифы на облачные серверы
Можно однозначно утверждать, что Google Veo 3 — инновационная модель, выводящая AI-генерацию видео на новый, поражающий воображение уровень. Она объединяет реалистичную графику, звуковую синхронизацию и мощную физическую модель.
Сгенерированные видео настолько реалистичны и согласованы, что неподготовленный человек замечает разницу не сразу, а в некоторых случаях не замечает вообще.
Новая версия идеальна для тех, кому важны быстрые, качественные и короткие видеоролики — от маркетологов и контент‑креаторов до художников и кинорежиссеров.