26 марта 2026 г.

Google представила TurboQuant — алгоритм сжатия памяти ИИ, ускоряющий вычисления в 8 раз

Исследователи Google создали алгоритм TurboQuant, который сжимает кэш нейросетей до трёх бит и ускоряет работу моделей на GPU H100 в восемь раз. Глава Cloudflare сравнил прорыв с эффектом DeepSeek.

📝

Редакция

Редакция · 0 статей

Новый алгоритм сжимает кэш нейросетей без потери качества

Исследовательское подразделение Google анонсировало TurboQuant — алгоритм, радикально сокращающий потребление памяти при работе больших языковых моделей и систем векторного поиска. По результатам тестирования, технология обеспечивает шестикратное снижение расхода памяти и восьмикратный прирост скорости вычислений на GPU-ускорителях H100.

Пользователи соцсетей мгновенно провели параллель с вымышленным стартапом из культового сериала «Кремниевая долина»:

«TurboQuant is the new Pied Piper 🤣» — Justin Trimble (@justintrimble), оригинальный пост

Почему это важно

Масштабирование языковых моделей упирается в физические ограничения: многомерные массивы данных о словах и изображениях занимают огромный объём в кэше процессоров, замедляя генерацию ответов. Существующие методы оптимизации зачастую требуют хранения дополнительных переменных, что сводит на нет выигрыш от сжатия. TurboQuant решает эту фундаментальную проблему, открывая путь к более доступному и быстрому ИИ-инференсу — как для крупных корпораций, так и для независимых разработчиков.

Как работает TurboQuant

Алгоритм использует двухступенчатый подход к оптимизации памяти:

Первый механизм — переводит векторы в полярную систему координат и сжимает основной массив данных.
Второй механизм — выполняет функцию математического контролера, задействуя всего один бит памяти для коррекции остаточных скрытых ошибок.

Такая архитектура позволяет сжать кэш до трёх бит на элемент без деградации качества ответов модели. При этом технология не требует дополнительного дообучения нейросетей — она применяется поверх уже существующих моделей.

Тесты на открытых моделях и реакция индустрии

Команда Google проверила TurboQuant на популярных открытых моделях — Llama, Gemma и Mistral. Результаты подтвердили заявленные показатели: минимум шестикратная экономия памяти и восьмикратное ускорение вычислений на графических ускорителях H100.

Генеральный директор Cloudflare Мэттью Принс провёл аналогию между TurboQuant и китайской моделью DeepSeek, которая ранее привлекла внимание высокой эффективностью при минимальных аппаратных затратах:

«This is Google's DeepSeek. So much more room to optimize AI inference for speed, memory usage, power consumption, and multi-tenant utilization. Lots of teams at @Cloudflare focused on these areas. #staytuned» — Matthew Prince 🌥 (@eastdakota), оригинальный пост

Планы по внедрению

Google намерена интегрировать TurboQuant в собственные поисковые алгоритмы и ИИ-продукты, включая Gemini. Публичная презентация технологии запланирована на профильных конференциях ICLR и AISTATS в 2026 году.

Ранее, 25 марта, Google также раскрыла планы по переходу на постквантовую криптографию, что свидетельствует об активной работе корпорации сразу на нескольких передовых технологических направлениях.

artificial-intelligencecloudflaredeepseekgooglegpu-optimizationllmmachine-learning

Часто задаваемые вопросы

Что такое TurboQuant от Google?

TurboQuant — это алгоритм сжатия памяти для нейросетей, разработанный исследовательским подразделением Google. Он сжимает кэш больших языковых моделей до трёх бит, обеспечивая шестикратную экономию памяти и восьмикратное ускорение вычислений на GPU H100.

На каких моделях тестировали TurboQuant?

Алгоритм прошёл проверку на открытых моделях Llama, Gemma и Mistral. Во всех случаях сжатие до трёх бит не привело к потере качества генерируемых ответов.

Нужно ли дообучать нейросеть для использования TurboQuant?

Нет, TurboQuant не требует дополнительного обучения моделей. Алгоритм применяется поверх уже существующих нейросетей, что упрощает его внедрение.

Когда Google внедрит TurboQuant в свои продукты?

Google планирует интегрировать технологию в поисковые алгоритмы и ИИ-продукты, включая Gemini. Публичная презентация назначена на конференции ICLR и AISTATS в 2026 году.

Почему TurboQuant сравнивают с Pied Piper из Кремниевой долины?

Пользователи соцсетей провели параллель с вымышленным стартапом Pied Piper из сериала «Кремниевая долина», который тоже разрабатывал революционный алгоритм сжатия данных. Аналогия связана с прорывным характером технологии сжатия.

Google представила TurboQuant — алгоритм сжатия памяти ИИ, ускоряющий вычисления в 8 раз

Новый алгоритм сжимает кэш нейросетей без потери качества

Почему это важно

Как работает TurboQuant

Тесты на открытых моделях и реакция индустрии

Планы по внедрению

Часто задаваемые вопросы

Что такое TurboQuant от Google?

На каких моделях тестировали TurboQuant?

Нужно ли дообучать нейросеть для использования TurboQuant?

Когда Google внедрит TurboQuant в свои продукты?

Почему TurboQuant сравнивают с Pied Piper из Кремниевой долины?

Читайте также

Alphabet отчиталась о рекордной квартальной выручке $94,7 млрд благодаря буму ИИ

DeepSeek представил V4-Pro — открытую модель, превзошедшую Claude Opus 4.6 и GPT-5.4

Google представила нейросеть Nano Banana 2 и обновлённый видеосервис Flow

ИИ-система Octane Security нашла критическую уязвимость в Ethereum-клиенте Nethermind

Google расширил возможности ИИ-платформы Opal новыми агентами

OpenAI получила $110 млрд в рекордном раунде при оценке $730 млрд

Будьте в курсе