В конце мая отгремела Google I/O — главное событие года для Google, которое в этом году целиком было посвящено искусственному интеллекту. Никаких сюрпризов: ИИ теперь — сердце всех инноваций компании, от поиска до новых устройств.
В этой статье пройдемся по ключевым AI-обновлениям: от Deep Think режима для Gemini 2.5 и coding-агента Jules до генерации видео с Veo 3 и новой модели для создания изображений Imagen 4.
perenos
С появлением модели DeepSeek-R1 в январе 2025 года, многие компании включились в гонку создания моделей с мышлением. На презентации Google показал Deep Think в Gemini 2.5 Pro. Это не просто режим, а настоящий процесс рассуждения, где модель рассматривает несколько гипотез, прежде чем выдать ответ. Кстати, не путайте с уже существующим режимом Deep Research, который появился в декабре 2024 года и специализируется на создании отчетов и глубоком поиске в интернете.
Deep Think же, который анонсировали в предварительной версии во время Google I/O, — это режим рассуждения для модели Gemini 2.5 Pro, позволяющий ей рассматривать несколько гипотез перед тем, как дать ответ. Его возможности особенно ценны для решения комплексных задач, таких как продвинутая математика, разработка программного обеспечения, написание тестов для приложений.
Удивительно, но на запрос посмотреть кусок кода и дать рекомендации по улучшению, Deep Think решил выдать ответ на испанском. В «процессе размышления» ничто не указывает на причину.
The provided Python code for the Percona Everest API client library is well-structured and uses modern Python features effectively. However, several areas can be enhanced for robustness, maintainability, and usability.
Here's a breakdown of potential improvements:
mejoras clave
Gestión de errores mejorada Actualmente, _make_request detecta requests.exceptions.RequestException genéricamente, registra un error y vuelve a generar la excepción original. Para permitir que los usuarios de la biblioteca manejen los errores de la API de forma más granular, puedes introducir excepciones personalizadas.
Полный ответ и процесс размышления можно посмотреть здесь: deep-think.md.
Раз уж мы заговорили про код, нельзя не упомянуть Jules — AI-агент и ассистент для написания кода. Мы попросили Jules добавить тестов в open-source-проект:
Через пять минут на выходе получилось 392 новых строки в трех новых файлах. В основном, простые unit-тесты. Тут надо сказать, что конкуренты, которые используют Claude Sonnet от Anthropic, сделают то же самое за 10-15 секунд. Вопрос, конечно же, в качестве кода. Пока официальных бенчмарков нет. Интересно будет посмотреть на этот продукт через несколько месяцев.
Это, вероятно, самый интересный анонс с Google-презентации. Модель Veo 3 была разработана в подразделении Google DeepMind и позволяет создавать видео в 4K и собственное синхронизированное аудио (звуковые эффекты, окружение и даже диалоги). Veo 2, для сравнения, поддерживала только видео в 720p и ничего не знала про звук.
Основная фишка — это синхронизация видео и аудио. Теперь даже движение губ персонажей полностью синхронизировано с произносимыми словами.
Модель пока что доступна только в США, но мы опробовали ее. Вот что она создала на промпт «Пушкин Александр Сергеевич сидит на фоне хрущевки в России 90х годов и читает на русском предложения из своей поэмы. Рядом сидит r2d2»:
Google Flow — это полноценный конструктор для AI-кинематографа, разработанный Google DeepMind. Это не просто оболочка для Veo 3, а комплексная платформа, объединяющая в себе мощь Veo 3 (для видео и аудио), Imagen (для генерации изображений и текстур) и Gemini (для понимания и обработки сложных текстовых запросов). Основная цель Flow — демократизировать процесс создания видео, сделав его доступным для широкого круга создателей, от новичков до профессионалов.
Для демонстрации возможностей есть FlowTV — там показаны видео, созданные с помощью Veo и Flow, и используемые промпты.
Конечно же, без генерации картинок тоже не обошлось. Imagen 4 — последняя модель для создания изображений от Google DeepMind. По сравнению с Imagen 3, в ней появилось разрешение 2К, улучшена работа с текстом, а скоро должна выйти «быстрая» версия модели, которая сможет генерировать изображения в 10 раз быстрее, чем третья версия.
Работа с текстом всегда была слабой стороной моделей. Для сравнения ниже две картинки:
Первая создана Imagen 3 по запросу: «Stage, google io conference, presenter on the stage, the slide shows "Imagen 3 - image generation model revealed". Realistic.»
Даже на таком примере видно, что Imagen 3 испытывает определенные трудности с созданием текста.
Вторая — создана Imagen 4 по практически идентичному запросу: «Stage, google io conference, presenter on the stage, the slide shows "Imagen 4 - image generation model revealed". Realistic.»
Imagen 4 справляется с текстом заметно лучше: надписи на слайде выглядят четкими и читаемыми, а шрифты — более естественными. Очевидно, работа с текстом стала одним из ключевых улучшений новой модели.
Однако, как и ожидалось, Google не смогли решить так называемую «проблему часов» — интересную особенность, при которой нейросети чаще всего рисуют аналоговые часы, показывающие время 10:10. Даже если явно указать другое время, ИИ-модели упорно возвращаются к одному и тому же положению стрелок.
Дело в симметрии. Изображение часов, показывающих 10:10, исторически больше нравится покупателям: стрелки образуют гармоничный «улыбающийся» угол, не закрывают логотипы на циферблате и выглядят эстетично. Из-за этого в интернете огромное количество картинок с таким временем — и модели, обученные на этих данных, буквально «заучили» 10:10 как стандартный вариант.
Так же ведет себя и модель от Google: на запрос «Image of three analogue watches that show the following time: 6:15, 3:30 and 9:45» часы всё равно показывают примерно 10:10:
Google I/O стала площадкой для демонстрации внедрения Gemini во все продукты компании. В Google Docs Gemini мгновенно генерирует идеи, черновики или резюмирует документы. В Google Sheets он автоматически создает формулы и дашборды. Для Google Slides Gemini сам сделает презентацию и сгенерирует изображения с помощью Imagen. В Gmail — предложит ответы и напишет письма за вас. А в Google Meet Gemini станет вашим секретарем, записывая заметки и переводя речь в реальном времени.
«Живой» перевод пока что в бете и работает только для испанского и английского языков, но это лишь вопрос времени.
Google также не дают покоя лавры Perplexity, что сподвигло их добавить Gemini прямо в Google Chrome. Теперь можно составлять краткое изложение страницы, искать с помощью AI и даже переходить на другие страницы. Пока что ценность этой интеграции не совсем понятна, но, возможно, с эволюцией интерфейса мы увидим абсолютно новый поиск.
Project Aura — внедрили AI в очки на платформе Android XR. Решили оживить давно умерший Google Glass: новая оболочка, система и железо.
Project Astra — прототип универсального AI-ассистента, Google Lens «на стероидах». Ассистент умеет работать с видео, аудио и текстом.
Google Beam (он же Project Starline) — AI-платформа для 3D-видеосвязи, которая создает реалистичное ощущение личного присутствия во время звонков. ИИ превращает 2D-видеопоток в трехмерные изображения. Умеет создавать эффект зрительного контакта и переводить речь в реальном времени.
Выгодные тарифы на облако в Timeweb Cloud
Что ж, Google I/O 2025 наглядно показала одно: Google делает огромную ставку на искусственный интеллект. От более «умных» режимов в Gemini до прорывных технологий в видео и изображениях вроде Veo 3 и Imagen 4 — ИИ теперь буквально пронизывает всю экосистему продуктов компании, от Google Docs до Chrome. Это не просто серия обновлений, а результат колоссальных инвестиций и долгосрочной стратегии. Google играет вдолгую, стремясь сделать искусственный интеллект центральным элементом повседневной жизни. И судя по тому, что мы увидели, это только начало большой и очень интересной игры.