Google представила ИИ-модель синтеза речи Gemini 3.1 Flash TTS, нейросеть для роботов и приложение Gemini для macOS
Google выпустила сразу несколько продуктов: модель озвучки текста Gemini 3.1 Flash TTS с поддержкой 70+ языков, робототехническую модель Gemini Robotics-ER 1.6 совместно с Boston Dynamics, а также нативное приложение Gemini для macOS.
Gemini 3.1 Flash TTS: синтез речи нового поколения
Google анонсировала серию крупных релизов, ключевым из которых стала Gemini 3.1 Flash TTS — модель преобразования текста в речь, построенная на архитектуре Gemini 3. Обновлённая нейросеть обеспечивает повышенное качество звука, большую выразительность и детализированный контроль над генерацией голоса. Модель поддерживает свыше 70 языков и открывает возможности для создания голосовых ИИ-интерфейсов как для разработчиков, так и для корпораций и обычных пользователей.

Доступ к Gemini 3.1 Flash TTS уже открыт по нескольким каналам:
- Разработчики могут использовать её в режиме предварительного доступа через Gemini API и Google AI Studio;
- Корпоративные клиенты получают доступ через Vertex AI;
- Пользователи Workspace — через сервис Google Vids.
В рейтинге Artificial Analysis TTS модель набрала 1211 баллов. Оценка сформирована по результатам слепого тестирования с участием тысяч респондентов, оценивавших качество сгенерированного аудио. Аналитики Artificial Analysis отнесли Gemini 3.1 Flash TTS к числу наиболее привлекательных решений на рынке благодаря сочетанию высокого качества синтеза и невысокой стоимости. Отдельно подчёркивается способность модели генерировать естественные диалоги с участием нескольких спикеров.
Аудио-теги для точного управления голосом
Одним из ключевых нововведений версии 3.1 Flash TTS стали аудио-теги — инструменты, позволяющие разработчикам управлять стилем, темпом и манерой подачи речи. В официальном блоге Google отмечается, что первые тестировщики и корпоративные пользователи уже оценили «впечатляющую управляемость и выразительность» новой модели. По их словам, аудио-теги позволяют достичь нового уровня творческой точности, превращая текст в качественное голосовое исполнение.
Почему это важно
Релизы Google затрагивают сразу три стратегических направления: голосовой ИИ, робототехнику и десктопные приложения. Модель синтеза речи может изменить подход к созданию голосовых интерфейсов, аудиоконтента и автоматизации общения с клиентами. Робототехническая модель в связке с Boston Dynamics приближает массовое внедрение ИИ в промышленные процессы. А нативное приложение для macOS расширяет экосистему Google AI на аудиторию пользователей Apple.
Gemini Robotics-ER 1.6: ИИ для роботов
Одновременно с речевой моделью Google представила Gemini Robotics-ER 1.6 — нейросеть, предназначенную для управления роботами в реальных условиях. Модель нацелена на улучшение когнитивных способностей машин и развитие «воплощённого» мышления: пространственное восприятие, планирование действий и оценка результатов.
По сравнению с предшественницей и Gemini 3.0 Flash новая модель демонстрирует существенный прогресс в задачах, связанных с пространственным и физическим мышлением. Gemini Robotics-ER 1.6 способна считывать данные со сложных измерительных приборов и анализировать показатели через смотровые стекла — эту функциональность команда Google DeepMind разрабатывала совместно с Boston Dynamics для промышленного применения.
Вице-президент проекта Spot в Boston Dynamics Марко да Сильва отметил, что подобные возможности позволяют роботам автономно воспринимать окружающую среду, анализировать её и реагировать на реальные задачи.
В тестах на выявление угроз безопасности Gemini Robotics-ER 1.6 показала результат на 6% лучше, чем Gemini 3.0 Flash в текстовых сценариях, и на 10% лучше при анализе видео. Boston Dynamics уже интегрировала модель и Gemini в свою платформу Orbit AIVI-Learning.
Приложение Gemini для macOS
Третьим значимым анонсом стало нативное приложение Gemini для macOS. Оно вызывается сочетанием клавиш Option + Пробел и поддерживает функцию передачи контекста через расшаривание окна. В приложении доступны генерация изображений с помощью Nano Banana, создание видео через Veo и другие инструменты экосистемы Google AI.
Ранее в апреле Google также анонсировала Gemma 4 — семейство открытых ИИ-моделей для продвинутых рассуждений и агентных рабочих процессов.
Часто задаваемые вопросы
Что такое Gemini 3.1 Flash TTS?
Gemini 3.1 Flash TTS — это модель синтеза речи от Google на базе архитектуры Gemini 3. Она поддерживает более 70 языков и отличается высоким качеством звука, выразительностью и возможностью точного управления стилем озвучки через аудио-теги.
Где доступна модель Gemini 3.1 Flash TTS?
Разработчики могут использовать её через Gemini API и Google AI Studio в режиме предварительного доступа. Корпоративные клиенты получают доступ через Vertex AI, а пользователи Workspace — через сервис Google Vids.
Что умеет Gemini Robotics-ER 1.6?
Gemini Robotics-ER 1.6 — это ИИ-модель для робототехники, специализирующаяся на пространственном восприятии, планировании действий и оценке результатов. Она способна считывать данные с измерительных приборов и превзошла Gemini 3.0 Flash на 6% в текстовых задачах и на 10% при анализе видео.
Как запустить Gemini на macOS?
Нативное приложение Gemini для macOS вызывается сочетанием клавиш Option + Пробел. Оно поддерживает функцию передачи контекста через расшаривание окна, генерацию изображений с Nano Banana и создание видео с Veo.
Какой рейтинг у Gemini 3.1 Flash TTS?
Модель набрала 1211 баллов в рейтинге Artificial Analysis TTS, который формируется на основе слепого тестирования с участием тысяч респондентов. Аналитики отнесли её к группе наиболее привлекательных решений по соотношению качества и стоимости.
Читайте также
Alphabet отчиталась о рекордной квартальной выручке $94,7 млрд благодаря буму ИИ
Материнская компания Google превзошла прогнозы аналитиков по выручке и прибыли за первый квартал 2026 года, продемонстрировав мощный рост облачного сегмента и успешную интеграцию ИИ в поисковые сервисы.
Google представила нейросеть Nano Banana 2 и обновлённый видеосервис Flow
Google запустила модель Nano Banana 2 для генерации изображений на скорости Gemini Flash, а также масштабно обновила креативную платформу Flow.
Google расширил возможности ИИ-платформы Opal новыми агентами
Google расширил ИИ-платформу Opal новыми агентами на базе Gemini 3 Flash, позволяющими автоматизировать рабочие процессы без написания кода.
ИИ-система Octane Security нашла критическую уязвимость в Ethereum-клиенте Nethermind
ИИ-система Octane Security обнаружила критическую уязвимость в Ethereum-клиенте Nethermind, способную остановить блокпроизводство у 38% валидаторов. Ethereum Foundation выплатил максимальную награду — $50 000.
Биржа Gemini братьев Уинклвосс переживает кризис после IPO
Криптобиржа Gemini братьев Уинклвосс потеряла 85% капитализации после IPO, уволила четверть сотрудников и покинула рынки ЕС и Австралии.
OpenAI получила $110 млрд в рекордном раунде при оценке $730 млрд
OpenAI закрыла крупнейший в истории стартапов раунд финансирования на $110 млрд. Основными участниками стали SoftBank, Nvidia и Amazon.
