Перейти к содержимому

Google представила TurboQuant — алгоритм сжатия памяти ИИ, ускоряющий вычисления в 8 раз

Исследователи Google создали алгоритм TurboQuant, который сжимает кэш нейросетей до трёх бит и ускоряет работу моделей на GPU H100 в восемь раз. Глава Cloudflare сравнил прорыв с эффектом DeepSeek.

📝
Редакция
0
Редакция · 0 статей

Новый алгоритм сжимает кэш нейросетей без потери качества

Исследовательское подразделение Google анонсировало TurboQuant — алгоритм, радикально сокращающий потребление памяти при работе больших языковых моделей и систем векторного поиска. По результатам тестирования, технология обеспечивает шестикратное снижение расхода памяти и восьмикратный прирост скорости вычислений на GPU-ускорителях H100.

Пользователи соцсетей мгновенно провели параллель с вымышленным стартапом из культового сериала «Кремниевая долина»:

«TurboQuant is the new Pied Piper 🤣» — Justin Trimble (@justintrimble), оригинальный пост

Почему это важно

Масштабирование языковых моделей упирается в физические ограничения: многомерные массивы данных о словах и изображениях занимают огромный объём в кэше процессоров, замедляя генерацию ответов. Существующие методы оптимизации зачастую требуют хранения дополнительных переменных, что сводит на нет выигрыш от сжатия. TurboQuant решает эту фундаментальную проблему, открывая путь к более доступному и быстрому ИИ-инференсу — как для крупных корпораций, так и для независимых разработчиков.

Как работает TurboQuant

Алгоритм использует двухступенчатый подход к оптимизации памяти:

  • Первый механизм — переводит векторы в полярную систему координат и сжимает основной массив данных.
  • Второй механизм — выполняет функцию математического контролера, задействуя всего один бит памяти для коррекции остаточных скрытых ошибок.

Такая архитектура позволяет сжать кэш до трёх бит на элемент без деградации качества ответов модели. При этом технология не требует дополнительного дообучения нейросетей — она применяется поверх уже существующих моделей.

Тесты на открытых моделях и реакция индустрии

Команда Google проверила TurboQuant на популярных открытых моделях — Llama, Gemma и Mistral. Результаты подтвердили заявленные показатели: минимум шестикратная экономия памяти и восьмикратное ускорение вычислений на графических ускорителях H100.

Генеральный директор Cloudflare Мэттью Принс провёл аналогию между TurboQuant и китайской моделью DeepSeek, которая ранее привлекла внимание высокой эффективностью при минимальных аппаратных затратах:

«This is Google's DeepSeek. So much more room to optimize AI inference for speed, memory usage, power consumption, and multi-tenant utilization. Lots of teams at @Cloudflare focused on these areas. #staytuned» — Matthew Prince 🌥 (@eastdakota), оригинальный пост

Планы по внедрению

Google намерена интегрировать TurboQuant в собственные поисковые алгоритмы и ИИ-продукты, включая Gemini. Публичная презентация технологии запланирована на профильных конференциях ICLR и AISTATS в 2026 году.

Ранее, 25 марта, Google также раскрыла планы по переходу на постквантовую криптографию, что свидетельствует об активной работе корпорации сразу на нескольких передовых технологических направлениях.

artificial-intelligencecloudflaredeepseekgooglegpu-optimizationllmmachine-learning

Часто задаваемые вопросы

Что такое TurboQuant от Google?

TurboQuant — это алгоритм сжатия памяти для нейросетей, разработанный исследовательским подразделением Google. Он сжимает кэш больших языковых моделей до трёх бит, обеспечивая шестикратную экономию памяти и восьмикратное ускорение вычислений на GPU H100.

На каких моделях тестировали TurboQuant?

Алгоритм прошёл проверку на открытых моделях Llama, Gemma и Mistral. Во всех случаях сжатие до трёх бит не привело к потере качества генерируемых ответов.

Нужно ли дообучать нейросеть для использования TurboQuant?

Нет, TurboQuant не требует дополнительного обучения моделей. Алгоритм применяется поверх уже существующих нейросетей, что упрощает его внедрение.

Когда Google внедрит TurboQuant в свои продукты?

Google планирует интегрировать технологию в поисковые алгоритмы и ИИ-продукты, включая Gemini. Публичная презентация назначена на конференции ICLR и AISTATS в 2026 году.

Почему TurboQuant сравнивают с Pied Piper из Кремниевой долины?

Пользователи соцсетей провели параллель с вымышленным стартапом Pied Piper из сериала «Кремниевая долина», который тоже разрабатывал революционный алгоритм сжатия данных. Аналогия связана с прорывным характером технологии сжатия.

Читайте также

AI

Alphabet отчиталась о рекордной квартальной выручке $94,7 млрд благодаря буму ИИ

Материнская компания Google превзошла прогнозы аналитиков по выручке и прибыли за первый квартал 2026 года, продемонстрировав мощный рост облачного сегмента и успешную интеграцию ИИ в поисковые сервисы.

3 мин·🔥 0
AI

DeepSeek представил V4-Pro — открытую модель, превзошедшую Claude Opus 4.6 и GPT-5.4

Китайский стартап DeepSeek выпустил превью линейки V4 с флагманской моделью на 1,6 трлн параметров, которая обошла ведущие закрытые системы в ряде бенчмарков.

3 мин·🔥 0
AI

Google представила нейросеть Nano Banana 2 и обновлённый видеосервис Flow

Google запустила модель Nano Banana 2 для генерации изображений на скорости Gemini Flash, а также масштабно обновила креативную платформу Flow.

3 мин·🔥 1
AI

ИИ-система Octane Security нашла критическую уязвимость в Ethereum-клиенте Nethermind

ИИ-система Octane Security обнаружила критическую уязвимость в Ethereum-клиенте Nethermind, способную остановить блокпроизводство у 38% валидаторов. Ethereum Foundation выплатил максимальную награду — $50 000.

3 мин·🔥 1
Инновации

Google расширил возможности ИИ-платформы Opal новыми агентами

Google расширил ИИ-платформу Opal новыми агентами на базе Gemini 3 Flash, позволяющими автоматизировать рабочие процессы без написания кода.

3 мин·🔥 1
AI

OpenAI получила $110 млрд в рекордном раунде при оценке $730 млрд

OpenAI закрыла крупнейший в истории стартапов раунд финансирования на $110 млрд. Основными участниками стали SoftBank, Nvidia и Amazon.

4 мин·🔥 1