Как ЭдПрав борется с галлюцинациями AI при работе с юридическими документами

Олег Никитин 6 мая 2026 9 мин чтения

AI-юрист, который ссылается на несуществующую статью закона, опаснее юриста, который честно скажет «не знаю». В юридической нише цена ошибки — реальный ущерб клиенту: неправильная норма = неправильное решение = штраф или проигранное дело. Поэтому архитектура ЭдПрав построена на 6 независимых слоях защиты, где каждый ловит свой класс ошибок. Результат: точность ссылок на законы выше 99%, а время проверки юристом сократилось с 8-12 минут до 2-3 минут на один ответ.

Когда мы начинали строить ЭдПрав, первый вопрос от каждого юриста звучал одинаково: «А если AI ошибется, кто отвечает?» Правильный вопрос. В юридической нише (Яндекс относит ее к категории YMYL — Your Money or Your Life) ошибка AI может стоить клиенту штрафа до 6 млн рублей по 152-ФЗ или потери права на контент стоимостью в миллионы.

Мы не стали делать «еще одного ChatGPT для юристов». Вместо этого построили многослойную систему, где каждый слой ловит свой тип ошибки. Вот как это работает.

Содержание:

RAG: модель отвечает только тем, что нашла в базе
Точность до пункта статьи закона
Валидатор ссылок: каждая цитата проверяется
Санити-чек: ловим глупые ошибки классификатора
Аудит вторым AI: двойная проверка перед юристом
Псевдонимизация: защита данных до отправки в AI
Актуальность: отмененные нормы не попадут в ответ
Цифры: до и после
Частые вопросы

RAG: модель отвечает только тем, что нашла в базе

Модель не «знает» законы из обучающих данных. Перед каждым ответом система находит в базе конкретные нормы и передает их модели как контекст. Если нормы нет в базе — модель обязана сказать «не нашел».

Главная причина галлюцинаций любого AI — он отвечает «по памяти». Модель видела миллионы текстов при обучении, и когда вы спрашиваете про ст. 81 Трудового кодекса, она генерирует ответ на основе статистических паттернов. Иногда угадывает. Иногда изобретает несуществующие нормы с уверенностью 95%.

В ЭдПрав модель не отвечает по памяти. Перед генерацией ответа система:

Ищет в базе из 9 700 000+ фрагментов реальных российских законов (ТК РФ, ГК РФ, КоАП, федеральные законы, указы, постановления, нормативка исполнительных органов, региональное законодательство, судебные решения)
Использует Voyage-law-2 — embedding-модель, обученную специально на юридических текстах (не общую GPT-модель)
Находит top-N наиболее релевантных норм по запросу
Передает модели только найденные нормы с инструкцией: «отвечай только опираясь на эти документы»

Это называется RAG (Retrieval-Augmented Generation) — и это архитектурная, а не программная защита. Модель физически не может сослаться на статью, которой нет в базе. Это как дать юристу закрытую библиотеку и сказать: «Используй только эти книги». Если книги нет на полке — он не сможет ее процитировать.

Точность до пункта статьи закона

Каждый фрагмент в базе привязан к конкретной иерархии: раздел, глава, статья, часть, пункт, подпункт. Ответ модели содержит точную ссылку — «ТК РФ, ст. 81, ч.1, п.6», а не просто «где-то в Трудовом кодексе».

Ранний прототип ЭдПрав хранил законы блоками по 3000 символов без привязки к структуре. Модель могла ответить: «Согласно ст. 81 ТК РФ…» — и формально это было верно, но не указывала конкретную часть и пункт. Юристу приходилось самому искать нужное место.

Сейчас работает Smart Chunker — парсер, который трекает полную иерархию документа:

Раздел → Глава → Статья → Часть → Пункт → Подпункт

Каждый фрагмент в базе содержит точную ссылку. Когда модель формирует ответ, она цитирует с точностью до пункта. Юрист может проверить конкретную норму за секунды, а не минуты.

Покрытие метаданных статей в RAG-чанках выросло с 47% до 89.9% после внедрения Smart Chunker.

Валидатор ссылок: каждая цитата проверяется

После генерации ответа каждая ссылка на закон автоматически проверяется: существует ли эта статья в базе, совпадает ли номер с упомянутым законом. Если нет — ссылка помечается как сломанная.

Даже с RAG модель может допустить ошибку: правильно найти нужную норму, но в ответе указать неверный номер статьи. Это классическая «мягкая галлюцинация» — смысл верный, ссылка неточная.

Citation Validator решает эту проблему:

Парсит каждую ссылку в ответе: «Согласно ст. 5 ФЗ…» → извлекает номер статьи и закона
Ищет эту конкретную статью в базе данных
Если статья не существует или номер не совпадает — помечает как broken citation
Юрист видит пометку и может скорректировать ссылку

До внедрения Citation Validator точность ссылок была около 85% — каждая шестая ссылка могла быть неточной. После внедрения — выше 99%. Это значит, что из 100 ссылок в ответах AI максимум 1 потребует корректировки.

Санити-чек: ловим глупые ошибки классификатора

74 regex-правила проверяют классификацию документов на уровне здравого смысла. Если AI-классификатор присвоил закону о местном самоуправлении категорию «медицинское право» — санити-чек это поймает за 5 миллисекунд.

Реальный случай из разработки: модель-классификатор присвоила ФЗ No 33 «Об общих принципах организации местного самоуправления» категорию MEDICAL с confidence 0.95. Почему? Потому что в обучающих данных «33-ФЗ» часто встречался рядом с медицинской тематикой.

Санити-чек — это набор из 74 regex-правил, написанных на основе анализа реального корпуса документов:

Модель сказала «медицинский закон»? Проверяем: есть ли в тексте слова из медицинского лексикона
Confidence ниже 0.3? Автоматически помечаем для ручной проверки юристом
«Банкротство» → ENTREPRENEURIAL, «конкуренция» → COMPLEX — правила из реального корпус-анализа

Результат: до внедрения санити-чека ошибки классификации составляли 9.4%. После — менее 0.5%. Дешево (5ms на запрос), надежно, ловит 90%+ типичных AI-фантазий.

Аудит вторым AI: двойная проверка перед юристом

Каждый ответ проходит проверку вторым, независимым AI. Он ищет потенциальные галлюцинации: неточные цитаты, ссылки на отмененные нормы, выводы без подкрепления источниками. Результаты видны юристу в дашборде.

Audit Runner — это ежедневный процесс, который прогоняет выборку реальных ответов через второй AI с задачей: «Найди потенциальные ошибки». Он ищет:

Неточные цитаты статей закона
Ссылки на нормы, которые утратили силу или еще не вступили в действие
Выводы, не подкрепленные найденными в базе фрагментами
Противоречия между разными частями ответа

Результаты попадают в дашборд. Юрист видит, какие ответы нужно перепроверить в первую очередь. Каждый ответ получает confidenceScore — объединение оценки основного AI и результата аудита.

Эффект: доля ответов, требующих правки юристом, снизилась с примерно 40% до 15-20%.

Псевдонимизация: защита данных до отправки в AI

Все персональные данные в запросе клиента (ФИО, паспорт, СНИЛС, ИНН, контакты) заменяются псевдонимами перед отправкой в AI-модель. Модель работает с обезличенными данными. После получения ответа — обратная замена.

Это решает сразу две проблемы. Первая — защита персональных данных: PII клиента не попадает в логи внешнего AI-провайдера. Для юридического сервиса, работающего с чувствительной информацией, это критично.

Вторая — борьба с «ассоциативными галлюцинациями». Если клиента зовут так же, как известное публичное лицо, модель может начать «дополнять» ответ информацией об этом человеке. Замена ФИО на [CLIENT_1] исключает такой сценарий.

Подробнее о том, как ЭдПрав работает с персональными данными при передаче в сторонние сервисы, мы писали в отдельной статье.

Актуальность: отмененные нормы не попадут в ответ

Каждый документ в базе имеет статус: действующий, утративший силу, еще не вступивший в силу. Поиск автоматически исключает неактуальные нормы. Если используется свежая редакция (менее 30 дней), пользователь видит предупреждение.

Классическая проблема AI-юристов: модель обучалась на данных до определенной даты и может ссылаться на нормы, которые уже отменены. Для онлайн-школ это особенно актуально — требования к согласиям и правила рекламы меняются регулярно.

В ЭдПрав каждый документ имеет:

Статус: ACTIVE (действующий), EXPIRED (утратил силу), NOT_YET_EFFECTIVE (еще не действует), REPEALED (отменен)
Даты: вступления в силу, истечения срока, последней редакции
Цепочку версий: ссылки на предыдущие и заменяющие редакции

Поиск по умолчанию показывает только действующие нормы. Если запрос касается событий прошлого (например, «что было в 2020 году») — система ранжирует выше редакции, действовавшие на тот момент.

Отдельно работает freshness-alert: если в ответе используется норма, редакция которой свежее 30 дней, пользователь видит предупреждение «свежая редакция, практика еще формируется».

Цифры: до и после

Точность ссылок выросла с 85% до 99%+. Время проверки юристом сократилось в 4 раза. Доля ответов, требующих правки, снизилась с 40% до 15-20%.

Метрика	До защиты	После
AI-классификация документов (confidence 0.5+)	~70%	более 95%
Покрытие метаданных в RAG-чанках	47%	89.9%
Точность ссылок на конкретные нормы	~85%	более 99%
Время проверки юристом одного ответа	8-12 мин	2-3 мин
Доля ответов, требующих правки юриста	~40%	15-20%

Каждый слой защиты работает независимо. Если один пропустит ошибку — следующий поймает. RAG не даст модели изобрести статью. Citation Validator проверит точность ссылки. Санити-чек поймает абсурдную классификацию. Аудит-раннер найдет тонкие неточности. Юрист проверит итоговый результат.

Именно поэтому в ЭдПрав каждый персонализированный запрос проходит через AI и проверяется живым юристом. Не потому что AI плохой — а потому что закон ошибок не прощает.

Частые вопросы

Может ли AI ЭдПрав сослаться на несуществующую статью закона?

Нет. Модель отвечает только на основе базы из 110 000+ фрагментов реальных российских законов (RAG-архитектура). Каждая ссылка в ответе дополнительно проверяется Citation Validator: существует ли эта статья в базе и совпадает ли номер. Точность ссылок — выше 99%.

Зачем нужен юрист, если AI уже проверяется 6 слоями защиты?

AI отлично справляется с поиском норм, классификацией и подготовкой черновика анализа. Но юридическая оценка ситуации — это не только знание закона, но и понимание судебной практики, неписаных правил и контекста конкретного клиента. Юрист в ЭдПрав не исправляет ошибки AI (их осталось менее 15-20%) — он добавляет экспертную оценку.

Как часто обновляется база законов в ЭдПрав?

База обновляется по мере принятия изменений в законодательстве. Каждый документ имеет статус (действующий, утративший силу, еще не вступил), даты вступления и истечения, цепочку версий. Поиск автоматически исключает неактуальные нормы. Если используется свежая редакция (менее 30 дней) — вы увидите предупреждение.

Что происходит с персональными данными клиента при обработке AI?

Все ФИО, номера документов (паспорт, СНИЛС, ИНН), контакты автоматически заменяются псевдонимами перед отправкой в AI-модель. Модель работает с обезличенными данными. После получения ответа происходит обратная замена. Персональные данные не попадают в логи внешних провайдеров.

Не хотите разбираться сами?

Задайте юридический вопрос AI-юристу ЭдПрав. Справочные запросы бесплатно, без ограничений. Каждый персонализированный ответ проверяется дипломированным юристом.

Попробовать бесплатно →

Статья подготовлена на основе актуальной архитектуры ЭдПрав на май 2026 года. Для получения консультации по вашему конкретному случаю рекомендуем обратиться к специалисту.

Не хотите разбираться сами?

ЭдПрав проверит ваш сайт и подготовит все необходимые документы. От 396 ₽ за запрос.

Попробовать бесплатно →