АГЕНТ · MITR - НИИ СИСТЕМНОГО СИНТЕЗА

https://asi5.ru

Исследовательский артефакт · АНО «НИИ Системного Синтеза»

MITR: верификация действий автономного агента в регулируемой среде

Mediating Invariant-Trust Resolver — слой, через который проходит каждое действие мультиагентной системы: классификация по необратимости, независимая и формальная проверка, эпистемический контур, журнал решений. Ниже — метод и его референсная реализация.

01 Задача

Большая языковая модель порождает не решение, а статистически правдоподобное продолжение в пространстве высокой размерности. У этого процесса нет внутренней гарантии: одно и то же входное условие способно дать разный выход, и сам выход не сопровождается доказательством своей допустимости.

Для регулируемой среды — банк, объект КИИ, юридическая практика — этого мало. Здесь нужна не правдоподобность, а воспроизводимость, проверяемость и невозможность нарушить установленную политику. Это требования не к качеству отдельных ответов, а к поведению системы как целого.

На уровне самой модели они недостижимы: вероятностный генератор нельзя сделать доказуемо корректным, не перестав быть генератором. Поэтому задача поднимается на уровень выше — на архитектуру, внутри которой модель работает как один из компонентов, а не как самостоятельный исполнитель.

Это стандартная постановка теории управления. Есть объект с непредсказуемым поведением; требуется построить вокруг него регулятор, удерживающий объект в допустимых границах. MITR — референсная реализация такого регулятора для автономного агента.

02 Принцип: снятие противоречия, а не компромисс

В основе — противоречие. Система должна быть автономной, то есть действовать без человека в каждом шаге, и одновременно не должна иметь возможности нарушить политику. Слабое решение разменивает одно на другое: меньше автономии ради контроля либо меньше контроля ради автономии.

MITR устроен иначе. Нарушение политики делается не маловероятным, а структурно невозможным. Языковая модель не вызывает внешние системы напрямую. Любое действие с последствиями за пределами диалога проходит через слой верификации, обойти который нельзя: обход для модели архитектурно невыразим.

В терминах ТРИЗ это снятие противоречия в направлении идеального конечного результата — когда нужное свойство (безопасность) обеспечивается самой структурой, а не добавленным «сторожем», которого можно обойти. Безопасность здесь не контролируется постфактум, а доказывается до исполнения. Этим подход отличается от модерации, фильтров и проверок, навешенных на модель снаружи.

03 Действие как объект

Каждое действие представлено в системе как структурированный объект: тип, параметры, контекст. Тип задаёт класс необратимости — формальный признак, по которому включаются обязательные проверки. Параметры валидируются по схеме. Применимая к классу политика применяется детерминированно. Решение — допуск или отказ — фиксируется в журнале.

Принцип одинаков для всех агентов системы. Он не зависит ни от того, какая модель породила действие, ни от того, на каком стеке развёрнут агент. Таково свойство регулятора: он работает с действием как с объектом, безотносительно того, что происходит внутри генератора.

04 Градиент необратимости R0–R5

Действия неравнозначны. Чтение реестра не несёт последствий; необратимое удаление — несёт. Двоичная модель «разрешено / запрещено» одинаково строга к обоим и потому одновременно избыточна и недостаточна.

MITR классифицирует каждое действие по шкале необратимости — от R0 (чтение, нулевое последствие) до R5 (деструктивное, невосстановимое). Класс определяет, какие проверки обязательны. Чем выше цена ошибки, тем строже и дороже проверка; чем ниже — тем легче путь. Ресурс верификации концентрируется там, где ущерб реален, и не тормозит безобидные операции. В текущей редакции таблица охватывает восемь классов критических операций.

По существу шкала задаёт регулятору необходимое разнообразие реакций — в смысле закона Эшби: на действия, различные по последствиям, система отвечает различной строгостью, а не единым порогом. Классификация формальна, зафиксирована в коде и сопровождается тестами, которые ломаются при её нарушении.

Градиент необратимости — переносимая часть метода: он не привязан к конкретной реализации и применим в других системах независимо от используемых моделей.

05 Контур проверки

Действие проходит несколько независимых слоёв. Каждый закрывает свой класс угроз; слабость одного компенсируется остальными. Это принцип эшелонированной защиты: не один совершенный барьер, а несколько разнородных, отказы которых не коррелируют между собой. Путь одного действия показан на схеме.

Путь одного действия. Не прошедшее проверку блокируется до исполнения; при недостатке оснований система возвращает «не знаю», а не выдумку.

5.1. Независимая проверка (Multi-Box)

Действия класса R3 и выше проверяет второй модуль на основе модели другого семейства. Первый порождает решение; второй выносит вердикт — согласен, не согласен, не уверен — с обоснованием. Расхождение фиксируется как событие безопасности и блокирует исполнение до решения оператора.

Проверка эмпирическая, а не формальная. Её смысл — снизить вероятность согласованной ошибки, возникающей из общих смещений одной модели. В инженерии надёжности это резервирование разнородными каналами: два независимых тракта ошибаются вместе реже, чем один. Метрики consensus rate и uncertainty rate измеряются; решение зафиксировано в ADR-0005.

5.2. Формальная проверка (SMT, решатель Z3)

Для деструктивного класса R5 политика записана на языке логики первого порядка, а допустимость действия проверяет решатель выполнимости формул в теориях — Z3. Действие допускается тогда и только тогда, когда из контекстных фактов формально выводится соответствие политике. При отказе решатель возвращает unsat core — минимальный набор условий, приведших к отказу, то есть точную причину.

Здесь «вероятно, безопасно» заменено на «доказано соответствие — либо не исполняется». На дату публикации реализован пилотный фрагмент: один класс действий R5. Расширение на остальные классы R5, затем на R4 — задача Фазы I; полное покрытие R3–R5 — задача Фазы II.

5.3. Эпистемический контур

У каждой записи памяти агента есть происхождение: источник, дата, уверенность. Входящая информация обязательно относится к одной из трёх категорий — установленный факт, гипотеза, шум (приоритетное rule-based ядро с резервным запросом к модели, ADR-014). Эпистемический тег сохраняется как неотъемлемый атрибут записи и сопровождает её на всех дальнейших этапах.

Уверенность периодически пересматривается в режиме challenge pass: система берёт старые записи высокой уверенности и пытается опровергнуть их новыми данными. Противоречие снижает уверенность, устойчивость — повышает.

Это отрицательная обратная связь по знанию — тот же кибернетический механизм, что удерживает термостат у заданной температуры; только здесь он удерживает базу знаний у проверяемого состояния и не даёт накапливаться «уверенным» ошибкам. Так закрывается одна из главных уязвимостей агентов с долгой памятью — старые ошибочные «знания», которые больше никем не перепроверяются. Контур реализован в архитектуре; полная активация по слайсам памяти — задача Фазы I.

06 Инварианты архитектуры

Архитектура задана как набор инвариантов — утверждений о системе, нарушение которых считается дефектом, а не вариантом решения. Ключевые сопровождаются тестами, которые ломаются при нарушении.

Абстракция провайдера модели. Все вызовы моделей идут через единый интерфейс. Ядро не зависит от конкретной модели; добавление новой — адаптер плюс запись в конфигурации.

Политика — отдельный артефакт. Её изменение не требует правки core-кода и применяется горячей перезагрузкой без повторного развёртывания.

Действия R3+ — только через verifier. Единая точка исполнения принимает лишь верифицированные действия; обход слоя верификации архитектурно невыразим.

Журнал с первого действия. Каждое решение verifier’а пишется в структурированный журнал; формат спроектирован под 17-й приказ ФСТЭК (раздел 07).

Данные в юрисдикции РФ. Production-сборка не предполагает хранения, обработки или передачи пользовательских данных за её пределы.

Готовность к ГОСТ-криптографии. Криптооперации абстрагированы за интерфейс, допускающий замену провайдера без правки вызывающего кода. Полный перечень инвариантов с тестовым сопровождением — в архитектурной документации программы.

07 Журнал решений

Каждое решение слоя верификации фиксируется в структурированном журнале. Текущая эксплуатация ведёт его в режиме append-only: записи добавляются и не изменяются ретроактивно.

Референсная схема записи, спроектированная под 17-й приказ ФСТЭК, включает поля:

timestamp · event_type · actor_id · action_type · target_resource · parameters · decision (allow / deny) · decision_reason · policy_version · agent_id · session_id

Эталонная схема предусматривает хеш-цепочку записей для криптографического обнаружения ретроактивной правки, подписи коммитов и журналирование на физически отдельный том — стандартные требования эксплуатации в КИИ-контуре. Эти элементы разворачиваются при аттестации на конкретном объекте; в исследовательском стенде журнал ведётся append-only без криптоцепочки.

Формат публикуется как референсная схема и предназначен для адаптации в других системах под 187-ФЗ.

08 Состояние и фазы

Начало production-эксплуатации	24 апреля 2026
Срок непрерывной работы	публикуется на главной, обновляется ежедневно
Покрытие классов необратимости	R0–R5 классифицированы, gate активен для R3+
Покрытие SMT-проверки	пилот на одном классе R5; расширение — Фаза I
Покрытие эпистемического контура	архитектура реализована, активация по слайсам — Фаза I
Журнал решений	append-only в эксплуатации; хеш-цепочка — в эталонной схеме под КИИ
Тестовая база	свыше ста сорока модульных тестов
Соответствие ФСТЭК	формат спроектирован под 17-й приказ; аттестация — при пилоте на КИИ

Методологическая документация ведётся в формате архитектурных решений (ADR) и пронумерованной дорожной карты НИОКР. Значимые на дату публикации решения: эпистемический триаж (ADR-014), Multi-Box Consensus критических действий (ADR-0005), Z3-проверка на пилотном классе (ADR-0039).

Фаза I — пять исследовательских milestone-ов

(1) schema-validation между выводом модели и executor’ом; (2) внешняя политика как версионируемый артефакт с аттестацией хешем; (3) расширение SMT-проверки на полное покрытие R5 с бенчмарком latency и состязательными кейсами; (4) активация эпистемического контура на slice-выборках памяти; (5) challenge pass MVP — еженедельный пересмотр уверенности записей. Каждый milestone сопровождается письменным артефактом (ADR / препринт) и тестовым покрытием. Фаза II — расширение покрытия и сертификация; её содержание определяется по результатам Фазы I.

09 Модель публикации

Открыто: методология, архитектурные инварианты, референсная схема журнала, шкала классов необратимости, принцип Multi-Box Consensus, дорожная карта фаз, агрегированные метрики эксплуатации, препринты по результатам milestone-ов.

Закрыто: конкретные политики на языке Z3, системные промпты, внутренняя структура агентов, имена и параметры моделей, топология инфраструктуры, файлы конфигурации.

Разделение функциональное: открытая методология обеспечивает рецензируемость и переносимость подхода, закрытая реализация остаётся интеллектуальной собственностью института. Партнёрским организациям доступ расширяется отдельными соглашениями.