Uncategorized

Хороший ИИ на одной карте: тихая революция сжатия

Тема: efficiency-инференс — квантизация весов и сжатие KV-кэша. Менее шумная, чем релизы моделей, но именно она решает, влезет ли хорошая модель в одну видеокарту. Прямо про твой полигон.

Пока все считали параметры — у кого триллион, у кого больше, — тихо сместился сам вопрос. Гонка «чей мозг крупнее» упёрлась в стоимость, и реальным фронтом стало другое: как заставить хорошую модель работать дёшево. Не построить датацентр, а уложиться в то железо, что есть. И вот тут за 2025–2026 годы накопилось столько, что отдельный лонгрид напрашивается сам.

Сжимать можно в двух местах. Веса модели — чтобы она вообще влезла в память. И KV-кэш — чтобы она тянула длинный контекст и много запросов, не упираясь в ту же память. Начнём со второго, потому что там в 2026-м случилось самое красивое.

Невидимый счёт: что такое KV-кэш

Каждый раз, когда модель генерирует текст, она делает дорогую вещь, которую ты не видишь. Чтобы не перечитывать весь контекст заново на каждый новый токен, она хранит ключи и значения — проекции внимания — для каждого ранее обработанного токена, в каждой голове, в каждом слое. Это и есть KV-кэш.

Без него никуда: именно он позволяет модели держать в уме начало разговора, не пересчитывая всё с нуля. Но на масштабе это один из самых дорогих компонентов инференса. И он растёт вместе с длиной контекста. То есть чем длиннее вход — тем толще кэш, и тем быстрее он съедает всю видеопамять. Длинный контекст упирается не в интеллект модели, а в этот невидимый счёт.

TurboQuant: сжать кэш, не теряя качества

В начале 2026-го Google Research показал на ICLR алгоритм TurboQuant, и он решает ровно эту боль. Сжимает KV-кэш примерно в 6 раз и ускоряет вычисление внимания до 8 раз против 32-битных ключей — и при этом, по их замерам, без измеримой потери качества. Работает он в два шага, и оба элегантные.

Первый шаг — PolarQuant. К каждому вектору ключа и значения применяется случайный поворот. Поворот не меняет математического содержания вектора, но равномерно размазывает дисперсию по координатам — после него распределение каждой координаты становится почти нормальным, а значит, его аккуратно берёт простой скалярный квантизатор. Оптимальный квантизатор при этом считается аналитически, без обучаемых параметров.

Второй шаг — QJL, корректор ошибки на один бит. Он применяет преобразование Джонсона-Линденштраусса (случайная проекция почти сохраняет попарные расстояния и скалярные произведения) к остаточной ошибке после первого шага, убирая смещение. Каждое остаточное число ужимается до одного знакового бита, плюс-минус единицы. Итог — около 4 бит на компоненту кэша при почти нулевой остаточной ошибке.

И вот что важно практически. Это data-oblivious и model-agnostic: никакой калибровки, никакого дообучения — алгоритм цепляется к существующим моделям на инференсе. Google отчитался о нулевой измеримой потере точности на четырёх длинноконтекстных бенчмарках на Gemma и Mistral, а на тесте «иголка в стоге сена» — идеальный результат при шестикратном сжатии. И это уже не только статья: Tether встроил TurboQuant в свой QVAC SDK для локального ИИ — работает с любым трансформером в формате GGUF, включается флагом, на Qwen3.5-4B показали почти без потерь.

Вторая половина: квантизация весов

KV-кэш — это про активации во время работы. Но чтобы модель в принципе влезла в карту, сжимают и сами веса. Это другая, более старая дисциплина: перевод весов из 16-битного формата в 8- или 4-битный — GGUF в вариантах Q4/Q5/Q8, методы вроде AWQ и GPTQ.

Эффект прямой: то, что в полной точности требует нескольких серверных GPU, в 4-битном кванте укладывается в одну потребительскую карту. Именно так 70-миллиардную модель запускают не на стойке, а на домашнем железе. Цена вопроса — качество: до 4 бит обычно держится прилично, ниже начинает заметно сыпаться. Поэтому ходовой выбор — Q4/Q5, как компромисс между «влезло» и «не отупело».

Две эти техники дополняют друг друга. Квант весов решает «влезет ли модель», сжатие кэша — «потянет ли она длинный вход и много сессий».

Где предел и где хайп

Трезвая часть. Вокруг TurboQuant в прессе мелькает «сжатие в 100 раз» — это преувеличение. Твёрдые, подтверждённые цифры скромнее и честнее: шестикратное сокращение памяти кэша, восьмикратное ускорение внимания, совпадение с полной точностью при четырёхкратном сжатии. Уже отлично, но не магия на два порядка.

Второе: независимые разборы прямо отмечают, что TurboQuant важен не тем, что выжал ещё чуть-чуть памяти, а тем, что обозначил границу — место, где сжатие KV-кэша близко к оптимуму и лёгкие выигрыши кончились. То есть это маркер зрелости, а не начало бесконечной халявы.

Третье: всё это — эффективность инференса, а не новая способность. Сжатие не делает модель умнее, оно делает её дешевле в эксплуатации. И квант весов на совсем низких битах за дешевизну берёт качеством.

Кстати, насколько это серьёзно, видно по рынку: после выхода TurboQuant акции производителей памяти просели на открытии — лучше сжатие означает, что памяти нужно меньше.

Прямо под твой полигон

Тут связка буквальная, без натяжек. Это ровно та дисциплина, что решает твою задачу — гонять хорошую нейронку дёшево на одной RF-карте.

Квант весов — чтобы на 32 гигабайтах 5090 поместилась достойная модель. Сжатие кэша — чтобы она переваривала длинные входы (корпус судебных решений, логи, аудит-журнал) и держала несколько сессий, не задыхаясь по памяти; шестикратная экономия кэша — это либо длиннее контекст, либо больше параллельных запросов на той же карте. И трение низкое: TurboQuant уже в SDK, формат GGUF, включается флагом, калибровки не требует — то есть это не научный проект на полгода, а опция, которую можно щёлкнуть.

И стратегически сдвиг «не больше, а дешевле» играет тебе на руку. Efficiency-first означает, что для способного ИИ не нужен датацентр — нужно умное сжатие на commodity-железе. Это ровно твой тезис капитальной эффективности и логика on-prem-миграции: суверенный игрок выигрывает не размером кошелька, а тем, что выжимает максимум из одной карты.

Что это значит

Реальный сюжет 2026-го — не очередной триллион параметров, а то, что хорошие модели стало можно гонять на скромном железе. Сжимают в двух местах: веса (чтобы влезло) и KV-кэш (чтобы тянуло длину и нагрузку). TurboQuant — красивый и уже продакшн-пример второго: шесть раз по памяти, восемь по скорости, почти без потерь, без калибровки. Но это эффективность, а не новый интеллект, цифры скромнее хайпа, и сжатие уже подошло к своей границе.

Для тебя это самая прикладная из тем серии. Не «что почитать», а «что включить»: квант весов плюс сжатие кэша — и твой полигон тянет серьёзную модель на одной карте, ровно как требует и бюджет, и суверенность.


Источники

  • TurboQuant — Google Research blog; статья Zandieh et al., ICLR 2026 (arXiv:2504.19874)
  • PolarQuant — AISTATS 2026 (arXiv:2502.02617)
  • Spheron: Google TurboQuant — 6x KV-кэш, 8x внимание, без калибровки
  • QVAC by Tether: TurboQuant в QVAC SDK 0.12.0 (GGUF, локальный ИИ, Qwen3.5-4B)
  • WWT: TurboQuant & PolarQuant — технический разбор (QJL, 3-бит >5x)
  • turboquant.net — независимый разбор (граница сжатия, что уже развёрнуто)

Telegram-канал

Системный синтез

Искусственный интеллект на пересечении технической и юридической реальности.

Подписаться на канал →

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *