Перейти к содержимому
Google представила ИИ-модель синтеза речи Gemini 3.1 Flash TTS, нейросеть для роботов и приложение Gemini для macOS
AI3 мин
4

Google представила ИИ-модель синтеза речи Gemini 3.1 Flash TTS, нейросеть для роботов и приложение Gemini для macOS

Google выпустила сразу несколько продуктов: модель озвучки текста Gemini 3.1 Flash TTS с поддержкой 70+ языков, робототехническую модель Gemini Robotics-ER 1.6 совместно с Boston Dynamics, а также нативное приложение Gemini для macOS.

📝
Редакция
0
Редакция · 0 статей

Gemini 3.1 Flash TTS: синтез речи нового поколения

Google анонсировала серию крупных релизов, ключевым из которых стала Gemini 3.1 Flash TTS — модель преобразования текста в речь, построенная на архитектуре Gemini 3. Обновлённая нейросеть обеспечивает повышенное качество звука, большую выразительность и детализированный контроль над генерацией голоса. Модель поддерживает свыше 70 языков и открывает возможности для создания голосовых ИИ-интерфейсов как для разработчиков, так и для корпораций и обычных пользователей.

Рейтинг Gemini 3.1 Flash TTS от Artificial Analysis
Результаты Gemini 3.1 Flash TTS в рейтинге Artificial Analysis TTS

Доступ к Gemini 3.1 Flash TTS уже открыт по нескольким каналам:

  • Разработчики могут использовать её в режиме предварительного доступа через Gemini API и Google AI Studio;
  • Корпоративные клиенты получают доступ через Vertex AI;
  • Пользователи Workspace — через сервис Google Vids.

В рейтинге Artificial Analysis TTS модель набрала 1211 баллов. Оценка сформирована по результатам слепого тестирования с участием тысяч респондентов, оценивавших качество сгенерированного аудио. Аналитики Artificial Analysis отнесли Gemini 3.1 Flash TTS к числу наиболее привлекательных решений на рынке благодаря сочетанию высокого качества синтеза и невысокой стоимости. Отдельно подчёркивается способность модели генерировать естественные диалоги с участием нескольких спикеров.

Аудио-теги для точного управления голосом

Одним из ключевых нововведений версии 3.1 Flash TTS стали аудио-теги — инструменты, позволяющие разработчикам управлять стилем, темпом и манерой подачи речи. В официальном блоге Google отмечается, что первые тестировщики и корпоративные пользователи уже оценили «впечатляющую управляемость и выразительность» новой модели. По их словам, аудио-теги позволяют достичь нового уровня творческой точности, превращая текст в качественное голосовое исполнение.

Почему это важно

Релизы Google затрагивают сразу три стратегических направления: голосовой ИИ, робототехнику и десктопные приложения. Модель синтеза речи может изменить подход к созданию голосовых интерфейсов, аудиоконтента и автоматизации общения с клиентами. Робототехническая модель в связке с Boston Dynamics приближает массовое внедрение ИИ в промышленные процессы. А нативное приложение для macOS расширяет экосистему Google AI на аудиторию пользователей Apple.

Gemini Robotics-ER 1.6: ИИ для роботов

Одновременно с речевой моделью Google представила Gemini Robotics-ER 1.6 — нейросеть, предназначенную для управления роботами в реальных условиях. Модель нацелена на улучшение когнитивных способностей машин и развитие «воплощённого» мышления: пространственное восприятие, планирование действий и оценка результатов.

По сравнению с предшественницей и Gemini 3.0 Flash новая модель демонстрирует существенный прогресс в задачах, связанных с пространственным и физическим мышлением. Gemini Robotics-ER 1.6 способна считывать данные со сложных измерительных приборов и анализировать показатели через смотровые стекла — эту функциональность команда Google DeepMind разрабатывала совместно с Boston Dynamics для промышленного применения.

Вице-президент проекта Spot в Boston Dynamics Марко да Сильва отметил, что подобные возможности позволяют роботам автономно воспринимать окружающую среду, анализировать её и реагировать на реальные задачи.

В тестах на выявление угроз безопасности Gemini Robotics-ER 1.6 показала результат на 6% лучше, чем Gemini 3.0 Flash в текстовых сценариях, и на 10% лучше при анализе видео. Boston Dynamics уже интегрировала модель и Gemini в свою платформу Orbit AIVI-Learning.

Приложение Gemini для macOS

Третьим значимым анонсом стало нативное приложение Gemini для macOS. Оно вызывается сочетанием клавиш Option + Пробел и поддерживает функцию передачи контекста через расшаривание окна. В приложении доступны генерация изображений с помощью Nano Banana, создание видео через Veo и другие инструменты экосистемы Google AI.

Ранее в апреле Google также анонсировала Gemma 4 — семейство открытых ИИ-моделей для продвинутых рассуждений и агентных рабочих процессов.

artificial-intelligenceboston-dynamicsgeminigooglemacosroboticstext-to-speech

Часто задаваемые вопросы

Что такое Gemini 3.1 Flash TTS?

Gemini 3.1 Flash TTS — это модель синтеза речи от Google на базе архитектуры Gemini 3. Она поддерживает более 70 языков и отличается высоким качеством звука, выразительностью и возможностью точного управления стилем озвучки через аудио-теги.

Где доступна модель Gemini 3.1 Flash TTS?

Разработчики могут использовать её через Gemini API и Google AI Studio в режиме предварительного доступа. Корпоративные клиенты получают доступ через Vertex AI, а пользователи Workspace — через сервис Google Vids.

Что умеет Gemini Robotics-ER 1.6?

Gemini Robotics-ER 1.6 — это ИИ-модель для робототехники, специализирующаяся на пространственном восприятии, планировании действий и оценке результатов. Она способна считывать данные с измерительных приборов и превзошла Gemini 3.0 Flash на 6% в текстовых задачах и на 10% при анализе видео.

Как запустить Gemini на macOS?

Нативное приложение Gemini для macOS вызывается сочетанием клавиш Option + Пробел. Оно поддерживает функцию передачи контекста через расшаривание окна, генерацию изображений с Nano Banana и создание видео с Veo.

Какой рейтинг у Gemini 3.1 Flash TTS?

Модель набрала 1211 баллов в рейтинге Artificial Analysis TTS, который формируется на основе слепого тестирования с участием тысяч респондентов. Аналитики отнесли её к группе наиболее привлекательных решений по соотношению качества и стоимости.

Читайте также

AI

Alphabet отчиталась о рекордной квартальной выручке $94,7 млрд благодаря буму ИИ

Материнская компания Google превзошла прогнозы аналитиков по выручке и прибыли за первый квартал 2026 года, продемонстрировав мощный рост облачного сегмента и успешную интеграцию ИИ в поисковые сервисы.

3 мин·🔥 0
AI

Google представила нейросеть Nano Banana 2 и обновлённый видеосервис Flow

Google запустила модель Nano Banana 2 для генерации изображений на скорости Gemini Flash, а также масштабно обновила креативную платформу Flow.

3 мин·🔥 1
Инновации

Google расширил возможности ИИ-платформы Opal новыми агентами

Google расширил ИИ-платформу Opal новыми агентами на базе Gemini 3 Flash, позволяющими автоматизировать рабочие процессы без написания кода.

3 мин·🔥 1
AI

ИИ-система Octane Security нашла критическую уязвимость в Ethereum-клиенте Nethermind

ИИ-система Octane Security обнаружила критическую уязвимость в Ethereum-клиенте Nethermind, способную остановить блокпроизводство у 38% валидаторов. Ethereum Foundation выплатил максимальную награду — $50 000.

3 мин·🔥 1
Аналитика

Биржа Gemini братьев Уинклвосс переживает кризис после IPO

Криптобиржа Gemini братьев Уинклвосс потеряла 85% капитализации после IPO, уволила четверть сотрудников и покинула рынки ЕС и Австралии.

4 мин·🔥 0
AI

OpenAI получила $110 млрд в рекордном раунде при оценке $730 млрд

OpenAI закрыла крупнейший в истории стартапов раунд финансирования на $110 млрд. Основными участниками стали SoftBank, Nvidia и Amazon.

4 мин·🔥 1