Крупнейшая презентация Google на конференции I/O
Вероятно, это самая масштабная презентация по ИИ от Google, поэтому сжато самое основное:
▪️Локальное обновление Gemini 2.5. Сундар Пичай (CEO Google) заявил, что обновленные версии лидирует в LMArena, но я даже представлять ничего не буду. Сам факт того, что разработчики ГИИ обращают внимание на конкретный бенчмарк означает, что их LLM специально «задрочены» под конкретный бенчмарк, а значит результаты необъективные.
🔘В Gemini 2.5 Pro добавили Deep Think – это более расширенный мод для многоуровневых и параллельных рассуждений, который имеет значительный прогресс в математике, программировании и научных исследованиях (как заявлено). Пока доступен ограниченному количеству разработчиков.
🔘Полезное (но пока еще не масштабное) обновление Gemini 2.5 Flash с небольшими улучшениями по всем фронтам. Уже доступна всем пользователям и в среде разработчиков.
🔘Deep Research теперь позволяет загружать собственные файлы и скоро подключится к Google Drive и Gmail. Улучшен фоновый поиск и агрегация источников информации, улучшена цитируемость и точность ответов.
▪️Google представила полноценный запуск AI Mode для поиска Google Search, но пока только в США. AI Mode представляет собой более продвинутую версию поиска с полной интеграцией с ИИ.
Ключевые особенности:
• Продвинутые возможности рассуждения для обработки сложных запросов;
• Возможность задавать более длинные и комплексные вопросы (в 2-3 раза длиннее обычных запросов);
• Мультимодальность (обработка текста, изображений, видео);
• Функция Deep Search для углубленного исследования тем с созданием детализированных отчетов;
• Визуализация данных с автоматическим созданием диаграмм и графиков;
• Виртуальная примерка одежды, автоматизированный заказ товаров и услуг, более глубокая персонализация и т.д;
• Search Live — интеграция возможностей Project Astra, позволяющая взаимодействовать с поиском в разговорном формате с использованием камеры;
• Project Mariner — интеграция агентских возможностей, позволяющих ИИ выполнять задачи от имени пользователя, собирать данные, автоматизировать рутинные задачи, находить решение сложных проблем, анализировать информацию и т.д.
▪️Серьезные обновления для генерации визуального контента. Google представила Imagen 4 (для изображений) и Veo 3 (для видео), где теперь будет возможность одновременно генерировать видео с аудио на 24 языках.
Прошлые версии Imagen 3 и Veo 2 были очень сильны – однозначно топ среди инструментов для генерации контента и есть основания полагать на видимый прогресс.
Представлен Google Flow, предлагая полный набор инструментов для быстрого прототипирования кинематографических клипов и сцен, но пока максимум в 8-секундном формате с физически достоверными эффектами и реализмом (анонсировано, в реальности конечно же, не так).
Доступно управление камерой, бесшовное редактирование, глубокая модификация сцены с более высоким контролем на сценой и объектами. Вновь доступен только в США через Google AI Pro и Google AI Ultra.
Google также анонсировала интеграцию Imagen 4 в Google Docs, Slides и другие приложения Workspace, а также новые возможности для Google Vids, позволяющие превращать целые презентации в видео и создавать ИИ-аватары на основе загруженных скриптов.
▪️Видео конференции в режиме 3D диалога / видео связи.
Google Beam (ранее Google Starline) использует массив из шести камер и ИИ для преобразования 2D-видеопотоков в реалистичный 3D-опыт. Технология обеспечивает практически идеальное отслеживание движений головы с точностью до миллиметра при частоте 60 кадров в секунду в реальном времени с последующим автоматическим нативным переводом речи в Google Meet, сохраняя тон и темп голоса. Пока поддерживает только английский и испанский языки и доступны только платно через Google AI Pro и Ultra.
▪️Также развитие виртуальной среди и дополненной реальности через платформу Android XR, Project Aura (умные очки), расширение возможностей Workspace и Gmail через сквозную интеграцию ИИ, развитие Project Astra (взаимодействие ИИ с окружающим миром).