додому Останні новини та статті TurboQuant от Google снижает потребление памяти ИИ в 6 раз без потери...

TurboQuant от Google снижает потребление памяти ИИ в 6 раз без потери качества

Google представил новую технологию сжатия данных под названием TurboQuant, которая позволяет моделям искусственного интеллекта использовать в шесть раз меньше оперативной памяти во время диалогов, сохраняя при этом тот же уровень производительности. Это решение устраняет одну из главных проблем современного ИИ: огромные объемы временного хранилища, необходимые для отслеживания текущих взаимодействий.

Скрытая стоимость общения с ИИ

Когда вы переписываетесь с ИИ-ассистентом, модель обрабатывает не только ваш последний вопрос. Чтобы отвечать связно, ей необходимо помнить весь контекст разговора. Эта область временного хранения называется кешом ключ-значение (KV-кеш).

Представьте KV-кеш как кратковременную память ИИ. Если вы зададите уточняющий вопрос: «А как насчет температуры?», модель должна вспомнить, что ранее вы спрашивали о погоде в вашем конкретном городе. Для простых запросов этот след в памяти невелик. Однако для сложных задач, включащих сотни тысяч токенов (базовых единиц текста, которые обрабатывает ИИ), размер KV-кеша может вырасти до десятков гигабайт.

Это требование растет линейно вместе с нагрузкой. Поскольку такие платформы, как ChatGPT, обрабатывают миллиарды запросов ежедневно, совокупная потребность в памяти колоссальна. Традиционно сокращение использования памяти означало снижение качества или длины разговора — компромисс, от которого разработчики пытались отказаться.

Как работает TurboQuant: динамическое сжатие

Решение Google основано на процессе, называемом квантованием, который снижает точность значений данных для экономии места. Хотя Google использует квантование уже много лет, ранее оно применялось статически — модель сжималась один раз перед развертыванием и оставалась неизменной.

TurboQuant вводит динамическое сжатие в реальном времени KV-кеша. По мере того как ИИ генерирует ответ, TurboQuant непрерывно сжимает сохраняемые данные, обеспечивая их точность и актуальность без замедления процесса генерации. Это технически сложная задача, поскольку система должна балансировать между агрессивным сжатием и необходимостью сохранения математической целостности рассуждений ИИ.

Технология опирается на два конкретных математических метода:

  1. PolarQuant: Этот метод преобразует данные из стандартных декартовых координат (оси X, Y, Z) в полярные (углы и расстояния от центральной точки). За счет более согласованного выравнивания «углов» векторов данных система может сжимать их в меньшее количество битов, требуя меньше дополнительной информации для масштабирования.
  2. Квантованное преобразование Джонсона-Линденштрасса (QJL): После начального вращения эта оптимизационная техника вносит микроскопические корректировки для исправления вычислительных ошибок, вызванных сжатием, гарантируя точность итогового результата.

Почему это важно: эффективность против аппаратного обеспечения

В тестах, проведенных на крупных моделях ИИ, включая Meta Llama 3.1-8B, Google Gemma и модели Mistral AI, TurboQuant продемонстрировал значительный потенциал. По словам Google, эта технология может устранить «узкие места ключ-значение» в критических областях, таких как поисковая выдача и генеративный ИИ.

Реакция рынка была немедленной. После объявления 24 марта акции крупных производителей памяти, таких как SanDisk, Western Digital и Seagate, резко упали. Инвесторы опасались, что если ИИ потребуется значительно меньше памяти на каждый запрос, спрос на высококлассное оборудование для хранения данных может стабилизироваться или снизиться.

«Это может иметь глубокие последствия для всех случаев использования, зависящих от сжатия данных», — заявили представители Google, подчеркивая широкую применимость технологии.

Контекст момента «DeepSeek»

В социальных сетях генеральный директор Cloudflare Мэттью Принс назвал TurboQuant «моментом Google, аналогичным DeepSeek». Эта отсылка относится к китайской ИИ-компании DeepSeek, которая недавно привлекла всемирное внимание, выпустив модель, соперничающую с ведущими конкурентами при долей вычислительных затрат. Как и сюрприз от DeepSeek, TurboQuant указывает на сдвиг в сторону эффективности, а не просто масштаба.

Однако важно понимать масштаб этого прорыва. TurboQuant оптимизирует память для вывода (инференса) — память, используемую, когда ИИ активно генерирует ответ пользователю. Он не снижает объем памяти, необходимый для обучения модели, которое обычно потребляет в четыре раза больше ресурсов, чем вывод.

Финансовые аналитики, включая Вивека Арьи из Merrill Lynch, предупреждают инвесторов не переоценивать немедленное влияние на продажи оборудования. Шестикратное улучшение эффективности скорее позволит создавать модели большего размера или более широкие окна контекста (позволяя ИИ запоминать больше деталей разговора), чем приведет к пропорциональному шестикратному снижению общих закупок памяти.

Заключение

TurboQuant от Google представляет собой значительный шаг вперед в повышении эффективности и масштабируемости ИИ. За счет динамического сжатия памяти, используемой во время диалогов, он позволяет проводить более мощные взаимодействия без пропорционального увеличения аппаратной инфраструктуры. Хотя эта технология не решает проблему высоких затрат памяти на обучение ИИ, она предлагает жизнеспособный путь к более дешевому, быстрому и функциональному разговорному ИИ для обычных пользователей.

Exit mobile version