Рубрика: Uncategorized

Тема: efficiency-инференс — квантизация весов и сжатие KV-кэша. Менее шумная, чем релизы моделей, но именно она решает, влезет ли хорошая модель в одну видеокарту. Прямо про твой полигон. Пока все считали параметры — у кого триллион, у кого больше, — тихо сместился сам вопрос. Гонка «чей мозг крупнее» упёрлась в стоимость, и реальным фронтом стало другое: как заставить хорошую модель работать дёшево. Не построить датацентр, а уложиться в то железо, что есть. И вот тут за 2025–2026 годы накопилось столько, что отдельный лонгрид напрашивается сам. Сжимать можно в двух местах. Веса модели — чтобы она вообще влезла в память. И KV-кэш — чтобы она тянула длинный контекст и много запросов,…