Тема: efficiency-инференс — квантизация весов и сжатие KV-кэша. Менее шумная, чем релизы моделей, но именно она решает, влезет ли хорошая модель в одну видеокарту. Прямо про твой полигон.
Пока все считали параметры — у кого триллион, у кого больше, — тихо сместился сам вопрос. Гонка «чей мозг крупнее» упёрлась в стоимость, и реальным фронтом стало другое: как заставить хорошую модель работать дёшево. Не построить датацентр, а уложиться в то железо, что есть. И вот тут за 2025–2026 годы накопилось столько, что отдельный лонгрид напрашивается сам.
Сжимать можно в двух местах. Веса модели — чтобы она вообще влезла в память. И KV-кэш — чтобы она тянула длинный контекст и много запросов, не упираясь в ту же память. Начнём со второго, потому что там в 2026-м случилось самое красивое.
Невидимый счёт: что такое KV-кэш
Каждый раз, когда модель генерирует текст, она делает дорогую вещь, которую ты не видишь. Чтобы не перечитывать весь контекст заново на каждый новый токен, она хранит ключи и значения — проекции внимания — для каждого ранее обработанного токена, в каждой голове, в каждом слое. Это и есть KV-кэш.
Без него никуда: именно он позволяет модели держать в уме начало разговора, не пересчитывая всё с нуля. Но на масштабе это один из самых дорогих компонентов инференса. И он растёт вместе с длиной контекста. То есть чем длиннее вход — тем толще кэш, и тем быстрее он съедает всю видеопамять. Длинный контекст упирается не в интеллект модели, а в этот невидимый счёт.
TurboQuant: сжать кэш, не теряя качества
В начале 2026-го Google Research показал на ICLR алгоритм TurboQuant, и он решает ровно эту боль. Сжимает KV-кэш примерно в 6 раз и ускоряет вычисление внимания до 8 раз против 32-битных ключей — и при этом, по их замерам, без измеримой потери качества. Работает он в два шага, и оба элегантные.
Первый шаг — PolarQuant. К каждому вектору ключа и значения применяется случайный поворот. Поворот не меняет математического содержания вектора, но равномерно размазывает дисперсию по координатам — после него распределение каждой координаты становится почти нормальным, а значит, его аккуратно берёт простой скалярный квантизатор. Оптимальный квантизатор при этом считается аналитически, без обучаемых параметров.
Второй шаг — QJL, корректор ошибки на один бит. Он применяет преобразование Джонсона-Линденштраусса (случайная проекция почти сохраняет попарные расстояния и скалярные произведения) к остаточной ошибке после первого шага, убирая смещение. Каждое остаточное число ужимается до одного знакового бита, плюс-минус единицы. Итог — около 4 бит на компоненту кэша при почти нулевой остаточной ошибке.
И вот что важно практически. Это data-oblivious и model-agnostic: никакой калибровки, никакого дообучения — алгоритм цепляется к существующим моделям на инференсе. Google отчитался о нулевой измеримой потере точности на четырёх длинноконтекстных бенчмарках на Gemma и Mistral, а на тесте «иголка в стоге сена» — идеальный результат при шестикратном сжатии. И это уже не только статья: Tether встроил TurboQuant в свой QVAC SDK для локального ИИ — работает с любым трансформером в формате GGUF, включается флагом, на Qwen3.5-4B показали почти без потерь.
Вторая половина: квантизация весов
KV-кэш — это про активации во время работы. Но чтобы модель в принципе влезла в карту, сжимают и сами веса. Это другая, более старая дисциплина: перевод весов из 16-битного формата в 8- или 4-битный — GGUF в вариантах Q4/Q5/Q8, методы вроде AWQ и GPTQ.
Эффект прямой: то, что в полной точности требует нескольких серверных GPU, в 4-битном кванте укладывается в одну потребительскую карту. Именно так 70-миллиардную модель запускают не на стойке, а на домашнем железе. Цена вопроса — качество: до 4 бит обычно держится прилично, ниже начинает заметно сыпаться. Поэтому ходовой выбор — Q4/Q5, как компромисс между «влезло» и «не отупело».
Две эти техники дополняют друг друга. Квант весов решает «влезет ли модель», сжатие кэша — «потянет ли она длинный вход и много сессий».
Где предел и где хайп
Трезвая часть. Вокруг TurboQuant в прессе мелькает «сжатие в 100 раз» — это преувеличение. Твёрдые, подтверждённые цифры скромнее и честнее: шестикратное сокращение памяти кэша, восьмикратное ускорение внимания, совпадение с полной точностью при четырёхкратном сжатии. Уже отлично, но не магия на два порядка.
Второе: независимые разборы прямо отмечают, что TurboQuant важен не тем, что выжал ещё чуть-чуть памяти, а тем, что обозначил границу — место, где сжатие KV-кэша близко к оптимуму и лёгкие выигрыши кончились. То есть это маркер зрелости, а не начало бесконечной халявы.
Третье: всё это — эффективность инференса, а не новая способность. Сжатие не делает модель умнее, оно делает её дешевле в эксплуатации. И квант весов на совсем низких битах за дешевизну берёт качеством.
Кстати, насколько это серьёзно, видно по рынку: после выхода TurboQuant акции производителей памяти просели на открытии — лучше сжатие означает, что памяти нужно меньше.
Прямо под твой полигон
Тут связка буквальная, без натяжек. Это ровно та дисциплина, что решает твою задачу — гонять хорошую нейронку дёшево на одной RF-карте.
Квант весов — чтобы на 32 гигабайтах 5090 поместилась достойная модель. Сжатие кэша — чтобы она переваривала длинные входы (корпус судебных решений, логи, аудит-журнал) и держала несколько сессий, не задыхаясь по памяти; шестикратная экономия кэша — это либо длиннее контекст, либо больше параллельных запросов на той же карте. И трение низкое: TurboQuant уже в SDK, формат GGUF, включается флагом, калибровки не требует — то есть это не научный проект на полгода, а опция, которую можно щёлкнуть.
И стратегически сдвиг «не больше, а дешевле» играет тебе на руку. Efficiency-first означает, что для способного ИИ не нужен датацентр — нужно умное сжатие на commodity-железе. Это ровно твой тезис капитальной эффективности и логика on-prem-миграции: суверенный игрок выигрывает не размером кошелька, а тем, что выжимает максимум из одной карты.
Что это значит
Реальный сюжет 2026-го — не очередной триллион параметров, а то, что хорошие модели стало можно гонять на скромном железе. Сжимают в двух местах: веса (чтобы влезло) и KV-кэш (чтобы тянуло длину и нагрузку). TurboQuant — красивый и уже продакшн-пример второго: шесть раз по памяти, восемь по скорости, почти без потерь, без калибровки. Но это эффективность, а не новый интеллект, цифры скромнее хайпа, и сжатие уже подошло к своей границе.
Для тебя это самая прикладная из тем серии. Не «что почитать», а «что включить»: квант весов плюс сжатие кэша — и твой полигон тянет серьёзную модель на одной карте, ровно как требует и бюджет, и суверенность.
Источники
- TurboQuant — Google Research blog; статья Zandieh et al., ICLR 2026 (arXiv:2504.19874)
- PolarQuant — AISTATS 2026 (arXiv:2502.02617)
- Spheron: Google TurboQuant — 6x KV-кэш, 8x внимание, без калибровки
- QVAC by Tether: TurboQuant в QVAC SDK 0.12.0 (GGUF, локальный ИИ, Qwen3.5-4B)
- WWT: TurboQuant & PolarQuant — технический разбор (QJL, 3-бит >5x)
- turboquant.net — независимый разбор (граница сжатия, что уже развёрнуто)
Telegram-канал
Системный синтез
Искусственный интеллект на пересечении технической и юридической реальности.


