Google Veo 3 — как пользоваться нейросетью для генерации видео

В середине 2025 года компания Google представила третью версию собственного генератора видео — Veo. Новая модель не просто создает качественный видеоряд, но и сопровождает его реалистичной аудиодорожкой — звуками окружающей среды и диалогами персонажей.

В какой-то степени Google создала нечто новое, нечто революционное — то, что способно сделать квантовый скачок в области генерации видео. То, благодаря чему отличать настоящие видео от AI-сгенерированных станет намного сложнее.

Именно поэтому так важно разобраться, что из себя представляет новая нейросеть Veo 3 и какие специальные инструменты для работы с ней предлагает компания Google. Об этом и поговорим в данной статье.

Презентация нейросети Google Veo 3 (источник: Google I/O)

gpu

Что такое Google Veo 3

Google Veo — это генеративная модель для создания видео, разработанная и выпущенная компанией Google в середине 2024 года. Главное ее новшество — нативная возможность генерации аудио: звуковых эффектов, фоновой музыки и диалогов с синхронизацией движения губ.

Кадр одного из официальных видео, сгенерированных с помощью Google Veo 3

Звуковая дорожка сгенерированных видео автоматически подстраивается под контекст сцены, по мере надобности добавляя соответствующие эффекты: звуки природы, городской фон, музыкальное сопровождение и даже человеческую речь со свойственными персонажам наречиями и диалектами.

Таким образом, искусственный интеллект Veo 3 сочетает в себе качественную картинку, реалистичную физику и согласованное аудио.

Особенности Veo 3

Обновленная модель Veo 3 обладает рядом особенностей, которые отличают ее от других AI-сервисов для генерации видео:

Большая продолжительность. Продолжительность сгенерированного видеоролика может превышать пять секунд, которые являются стандартными для многих AI-сервисов генерации видео. Максимальная длина видеоролика — 8 секунд.
Согласованное аудиосопровождение. Сопровождение видео звуками окружения, музыкой и речью — все они правдоподобно синхронизированы с готовым видеорядом.
Физическая достоверность. Гиперреалистичное движение объектов, веществ, персонажей и света на протяжении всего видео.

Такой набор исключительных характеристик делает Google Veo 3 идеальным инструментом для генерации и кинематографических, и мультипликационных, и любых других видеорядов с высокой визуальной динамикой и глубокой сюжетной линией.

За счет этих особенностей Veo 3 уже можно использовать в профессиональной сфере, будь то контент для UGC-платформ (например, YouTube), короткая реклама или полноценное кино.

Еще один кадр из официального видео, сгенерированного с помощью Google Veo 3

Например, кинорежиссер Дэйв Кларк уже использовал Veo 2 и Veo 3 при создании некоторых из своих короткометражных фильмов.

Другой режиссер, Джун Лау, тоже возлагает большие надежды на передовую модель Google, используя Veo 3 в создании короткометражного фильма Dear Strangers.

Еще один фильммейкер, Йонатан Дор, создал с помощью Veo 3 собственный короткий фильм с участием вымышленных инфлюенсеров разных эпох — The History of Influencers.

В общем, случаев, когда режиссеры и художники интегрируют AI-инструменты Google в процессы создания контента становится все больше и больше. Хотя, конечно, для полноценного создания кино возможностей Veo 3 все еще недостаточно — только как дополнительный инструмент.

Возможности Veo 3

Новая версия Veo имеет несколько способов генерации видео с использованием разных исходных данных:

Текст в видео (text-to-video). Основной способ генерации видео в Veo 3 — на основе подробного (во всяком случае, желательно, чтобы оно было таким) текстового описания.
Изображение в видео (image-to-video). Модель Veo 3 может как генерировать видео на основе текста, так и на основе изображений. Более того, любое изображение, используемое в качестве исходных данных, может быть дополнено текстовым описанием, уточняющим детали поведения сцены.
Видео в видео (video-to-video). С помощью дополнительных инструментов (Flow) можно загружать готовые видео и применять к ним изменения с помощью Veo 3: добавление и удаление объектов, смена визуального стиля, корректировка поведения камеры, редактирование движения объектов и их звукового сопровождения.

При этом, как уже было отмечено ранее, видеролики Veo 3 консолидируют в себе все атрибуты, присущие классическому видео, не сгенерированному компьютером. Стандартное разрешение видео на выходе — 720p. Однако функция апскейлинга позволяет увеличивать это значение до 4К.

Инструменты Veo 3

Важно отметить, что в «голом» виде использовать Veo 3 нельзя — для этого необходимы дополнительные инструменты Google.

Flow

Компания Google предлагает специальный инструмент, объединяющий модели Veo (видео), Imagen (изображения) и Gemini (текст) в едином режиссерском интерфейсе — Flow. По сути, это центральная платформа для создания контента в Google.

С помощью Flow можно более выборочно и точечно редактировать видео: расширять кадры, добавлять новые детали, анимировать отдельные элементы, корректировать движение камеры, хранить стили и многое другое.

Такой редактор идеален для одиночной и ручной работы — он быстро и просто создавает отдельные клипы с мгновенным предварительным просмотром и корректировкой. Всё в одном окне.

При этом Flow требует минимум технических настроек: не нужен облачный аккаунт, биллинг или SDK — генерация видео происходит прямо в визуальном интерфейсе.

Демонстрация графического интерфейса Flow на презентации Google I/O в 2025 году (источник: ZDNET)

Gemini

С помощью LLM-нейросети Gemini можно генерировать точные промпты для генерации видео через Flow. Говоря проще, Gemini используется в качестве конвертера более человеческих текстовых описаний в более машинные текстовые описания. Хотя в обоих случаях они выполнены на естественном языке и понятны любому человеку.

Например, можно найти картинку в интернете или сгенерировать ее с помощью другого AI (например, Midjorney), прикрепить к сообщению в чат-боте Gemini (или любой другой LLM) и снабдить дополнительным описанием:

Необходим точный промпт для Google Veo 3 для генерации короткого видео из этого изображения, где трое мужчин сзади толкают автомобиль-банан с водителем за рулем, и по мере набора скорости машина-банан окрашивается в желтый цвет.

После этого Gemini сгенерирует полный промпт для генерации видео и снабдит его рядом пояснительных комментариев:

A vintage car, half-peeled banana, driven by a man in a hat, is being pushed by three other men from behind. The car is initially in black and white, but as it gains momentum and the men push harder, the banana part of the car gradually becomes fully ripe yellow. The background shows a field with trees in the distance, also in black and white. Dynamic camera movement, tracking the car as it accelerates.

Таким образом, можно сгенерировать видео на основе референсного изображения, выполнив простую последовательность действий:

Генерация промта для генерации изображения с помощью LLM (на основе описания).
Генерация изображения (на основе промта).
Генерация промта для генерации видео (на основе описания и изображения).
Генерация видео (на основе промта).

Либо можно взять готовое референсное изображение из Интернета:

Генерация промта для генерации видео (на основе описания и изображения).
Генерация видео (на основе промта).

В более упрощенном варианте можно сгенерировать видео без использования каких-либо референсных изображений в цепочке действий:

Генерация промта для генерации видео (на основе описания).
Генерация видео (на основе промта).

Ну или можно написать промпт для генерации видео полностью вручную :)

Тем не менее, в самом Gemini (разумеется, на платных тарифах) тоже можно генерировать видео с помощью Veo 3. Однако, как правило, для создания видеороликов используется Flow — он удобнее и нагляднее. Все-таки Gemini в большей степени заточен для работы с текстом, нежели с видео.

Vertex AI

Платформа Vertex AI представляет собой корпоративное решение для масштабных облачных генераций контента и хранения ассетов (assets) — различных медиа-файлов, необходимых для создания изображений и видео.

По сути, это полностью управляемая платформа для разработки, обучения, развертывания и сопровождения ИИ-моделей. Она объединяет все инструменты для всех этапов ML-цикла — от подготовки данных до мониторинга работы моделей.

Интерфейс Vertex AI в рамках глобальной платформы Google Cloud Platform (источник: TechLatest)

Таким образом, Flow обеспечивает удобный и визуальный подход, Gemini — точные релевантные промпты, а Vertex AI — надежную масштабируемую инфраструктуру. Вместе они превращают Veo 3 из сервиса для экспериментов в инструмент для профессионалов, способный решать реальные задачи самых разных проектов.

Как пользоваться Veo 3 — пошаговая инструкция

Разобравшись с устройством основных инструментов, можно поговорить о том, как сгенерировать видео с помощью Veo 3. Прежде всего нужно отметить, что для использования Google Veo 3 необходимо наличие одной из двух платных подписок Google AI:

Google AI Pro. Расширяет базовый функционал AI-инструментов компании Google. Стоимость от 19 долларов в месяц.
Google AI Ultra. Предлагает максимальные и практически неограниченные возможности для генерации контента. Стоимость от 249 долларов в месяц.

Никакого другого способа (в рамках экосистемы Google) использовать Veo 3 не существует — необходима платная подписка. Исключением могут стать сторонние сервисы-посредники или Telegram-боты, предлагающие генерацию видео через Veo 3 с оплатой за каждый видеоролик.

Еще один важный момент — Google Veo 3 на русском языке не доступен. Впрочем, это касается любого языка, кроме английского. Редактор Flow имеет только английскую локализацию. Более того, промпты для Veo 3 необходимо писать на английском языке.

Исключениями являются только реплики диалогов — их можно писать как на русском, так и на любом другом языке. При этом Veo 3 идеально передает диалекты описанных персонажей.

Например, при описании речи типичных бабушек, сидящих на лавке, ИИ Google Veo 3 добавит в речь характерный акцент пожилого человека советской эпохи со специфическим произношением гласных и согласных. Например, твердую С на конце слова (клянуС) и О вместо А (гОлОва).

По правде сказать, подобное качество звука и видео с чрезвычайно точным согласованием между собой поражает (а иногда пугает) даже тех людей, которые достаточно близко знакомы с современными технологиями.

Управление генеративной моделью, обладающей такими возможностями, обычно требует дополнительного инструментария для комфортного использования. Поэтому Google предлагает несколько способов взаимодействия с Veo 3, отличающихся разной степенью сложности.

Через Flow

Flow позволяет создавать сцены, контролировать движение камеры, управлять ассетами и монтировать ролики без необходимости обращений к сторонним инструментам.

По сути, это интуитивно понятный визуальный редактор для создания видео через Veo 3. Воспользоваться им несложно:

Авторизация в сервисе. На главной странице Flow необходимо авторизоваться с помощью аккаунта Google.
Создание проекта. Необходимо нажать на кнопку New project, после чего откроется страница для ввода текстового промта, содержащего точное описание требуемого видео и его звуковой дорожки.
Выбор типа исходников. На странице ввода промта можно выбрать тип исходных данных, на основе которых будет генерироваться видео: Text to Video, Frames to Video, Ingredients to Video. При выборе последних двух вариантов появятся дополнительные настройки поведения камеры и оформления кадров.
Конфигурация. На той же странице можно настроить некоторые параметры генерации: количество генерируемых вариантов на один промпт (1, 2, 3, 4) и используемая модель (Veo 2 Fast, Veo 2 Quality, Veo 3 Highest Quality). В зависимости от выбранных настроек одна генерация расходует от 10 до 100 кредитов с виртуального баланса Flow.
Ввод промпта. В поле для ввода текстового описания будущего видео необходимо ввести готовый промпт.
Генерация. После ввода промпта необходимо нажать на кнопку со стрелкой и дождаться окончания генерации видео, которая занимает от 2 до 7 минут. Сгенерированные видео и их промпты будут выводится в истории запросов над полем для ввода промптов.

Это самый базовый функционал платформы Flow. Во многом он похож на работу чат-ботов LLM-сервисов, но только вместо текста генерируется видео. Разумеется, во Flow есть дополнительные инструменты для компоновки видеороликов.

Через Gemini

Чтобы сгенерировать видео непосредственно в чат-боте Gemini необходимо выполнить ряд простых действий:

Авторизация в сервисе. С помощью аккаунта Google авторизоваться на сайте Gemini. После успешной авторизации откроется страница для ведения диалогов с чат-ботом.
Активация режима видео. Рядом с полем ввода сообщения необходимо нажать на кнопку Video, чтобы перейти в режим генерации видеороликов. Разумеется, такая кнопка есть только у пользователей, обладающих платной подпиской.
Ввод промпта. В поле для ввода сообщения необходимо ввести точное описание требуемого видеоряда: окружение, персонажи, свет, поведение камеры, стилизация и множество других важных деталей.
Генерация. После ввода промпта необходимо либо кликнуть на кнопку со стрелкой, либо нажать клавишу Enter. Начнется процесс генерации видео, занимающий от 2 до 7 минут. Готовые видео будут появляться в диалоговом поле чат-бота.

Таким образом, Gemini унифицирует процесс генерации текста (Gemini), изображений (Imagen) и видео (Veo) в одном интерфейсе, что довольно удобно.

Разумеется, для профессиональной работы с видео Gemini недостаточно — потребуется не только Flow, но и профессиональный софт для монтажа. Однако для создания презентаций и визуализации идей Gemini вполне достаточно.

Через Vertex AI

Еще один способ воспользоваться моделью Veo 3 — через Vertex AI. В отличие от Flow, созданного для креативной работы, Vertex AI подходит для профессионального, масштабного и автоматизированного создания контента.

Вот короткая последовательность действий для генерации видео через Vertex AI:

Авторизация. Сперва необходимо авторизоваться в Google Cloud Console с помощью аккаунта Google, после чего перейти в раздел с Vertex AI.
Перейти в Media Studio. В левом боковом меню необходимо перейти во вкладку Media Studio, после чего откроется страница выбора модели для генерации медиа-контента. Здесь необходимо выбрать Veo.
Ввод промпта. На открывшейся странице необходимо ввести текстовое описание требуемого видео в формате промпта, а также выбрать несколько основных настроек.
Генерация. После ввода промпта и конфигурации необходимо нажать на кнопку Generate. Спустя несколько минут готовое видео отобразится в интерфейсе сервиса.

Платформа Vertex AI обеспечивает распределенные вычисления, мониторинг расходов, хранение ассетов и управление ML-процессами — централизованно через Google Cloud.

А за счет REST API платформа позволяет программно запускать генерации сотен видео, интегрируя Veo 3 с приложениями сторонних разработчиков.

Достоинства и недостатки Veo 3

Google Veo 3 открывает новые горизонты автоматизированного видеопроизводства, сочетая передовую генерацию аудио и высококачественную визуализацию — оценка ее сильных и слабых сторон поможет выявить оптимальные сценарии применения.

Достоинства:

Визуальная и физическая достоверность. Помимо визуальной реалистичности изображения, освещения, теней, текстур и деталей, модель симулирует достоверное физическое поведение объектов, веществ и персонажей.
Синхронизация картинки и звука. Нативная генерация аудио (звуковые эффекты, фоновая музыка, диалоги) с высокой точностью синхронизируется с видеорядом.
Продвинутая интерпретация запросов. Глубокая обработка сложных запросов — понимание настроения, стилизации, точек обзора (панорамирование, зум). Широкие возможности креативного контроля позволяют выдерживать стабильность сцены — по кадрам удерживать визуальную согласованность персонажей и окружения со сменой ракурсов без потери консистенции.
Расширенный инструментарий. Интеграция с дополнительными инструментами (например, Flow, Vertex AI, Gemini) создает единую среду для генерации, редактирования и управления сценами.

Недостатки:

Ограниченная длительность. Максимальная продолжительность видео в Veo 3 не зависит от разрешения, но не превышает 8 секунд с частотой 24 кадра в секунду. Относительно других моделей это неплохие показатели, однако в рамках видеопроизводства это достаточно скромно.
Артефакты синхронизации. Согласованность видео- и аудиодорожек во время речи персонажей (липсинк) действительно высока, однако по-прежнему не идеальна. Зачастую можно наблюдать артефакты в области губ периферических персонажей, расположенных на заднем плане, реже — на переднем: рты либо неестественно открыты, либо просто размыты. В некоторых случаях встречаются деформации мелких конечностей — ладоней, пальцев рук, локтей, ступней.
Ошибки интерпретации промптов. Иногда встречаются проблемы с точностью запросов — модель уклоняется от деталей, не распознает тонкие эмоции и игнорирует второстепенных персонажей.
Высокая цена. Предлагаемые тарифные планы имеют высокую стоимость. Для профессионального продакшена подобные цены могут оказаться приемлемы, но для простого обывателя (студенты, фрилансеры, энтузиасты, творцы-одиночки) они могут оказаться завышенными.
Маркировка AI. Каждое сгенерированное видео получает невидимый SynthID‑маркер, позволяющий через специальное приложение распознать AI-генерацию от Veo 3.
Ограничение доступа. Помимо определенных территориальных ограничений могут возникать непредсказуемые проблемы с оплатой из различных стран — некоторые карты могут не приниматься эквайрингом Google.
Риски дезинформации. Исключительное качество картинки может привести к появлению правдоподобных deepfake-видео, способных ввести зрителей в заблуждение. Да и в целом искусственно созданные видео способствуют распространению фейковых новостей, вызывая множество этических вопросов.

Несмотря на то, что достоинства Veo 3 перевешивают его недостатки, полностью заместить традиционный продакшен модель пока не может. Однако с легкостью способна стать одним из дополнительных инструментов, используемых в связке с классическими программами видеомонтажа и графики.

Заключение

Можно однозначно утверждать, что Google Veo 3 — инновационная модель, выводящая AI-генерацию видео на новый, поражающий воображение уровень. Она объединяет реалистичную графику, звуковую синхронизацию и мощную физическую модель.

Сгенерированные видео настолько реалистичны и согласованы, что неподготовленный человек замечает разницу не сразу, а в некоторых случаях не замечает вообще.

Новая версия идеальна для тех, кому важны быстрые, качественные и короткие видеоролики — от маркетологов и контент‑креаторов до художников и кинорежиссеров.

04 июля 2025 г.

2791

15 минут чтения

Вход / Регистрация

Veo 3: как пользоваться нейросетью Google для создания видео