Как ЭдПрав борется с галлюцинациями AI при работе с юридическими документами
Когда мы начинали строить ЭдПрав, первый вопрос от каждого юриста звучал одинаково: «А если AI ошибется, кто отвечает?» Правильный вопрос. В юридической нише (Яндекс относит ее к категории YMYL — Your Money or Your Life) ошибка AI может стоить клиенту штрафа до 6 млн рублей по 152-ФЗ или потери права на контент стоимостью в миллионы.
Мы не стали делать «еще одного ChatGPT для юристов». Вместо этого построили многослойную систему, где каждый слой ловит свой тип ошибки. Вот как это работает.
Содержание:
- RAG: модель отвечает только тем, что нашла в базе
- Точность до пункта статьи закона
- Валидатор ссылок: каждая цитата проверяется
- Санити-чек: ловим глупые ошибки классификатора
- Аудит вторым AI: двойная проверка перед юристом
- Псевдонимизация: защита данных до отправки в AI
- Актуальность: отмененные нормы не попадут в ответ
- Цифры: до и после
- Частые вопросы
RAG: модель отвечает только тем, что нашла в базе
Главная причина галлюцинаций любого AI — он отвечает «по памяти». Модель видела миллионы текстов при обучении, и когда вы спрашиваете про ст. 81 Трудового кодекса, она генерирует ответ на основе статистических паттернов. Иногда угадывает. Иногда изобретает несуществующие нормы с уверенностью 95%.
В ЭдПрав модель не отвечает по памяти. Перед генерацией ответа система:
- Ищет в базе из 9 700 000+ фрагментов реальных российских законов (ТК РФ, ГК РФ, КоАП, федеральные законы, указы, постановления, нормативка исполнительных органов, региональное законодательство, судебные решения)
- Использует Voyage-law-2 — embedding-модель, обученную специально на юридических текстах (не общую GPT-модель)
- Находит top-N наиболее релевантных норм по запросу
- Передает модели только найденные нормы с инструкцией: «отвечай только опираясь на эти документы»
Это называется RAG (Retrieval-Augmented Generation) — и это архитектурная, а не программная защита. Модель физически не может сослаться на статью, которой нет в базе. Это как дать юристу закрытую библиотеку и сказать: «Используй только эти книги». Если книги нет на полке — он не сможет ее процитировать.
Точность до пункта статьи закона
Ранний прототип ЭдПрав хранил законы блоками по 3000 символов без привязки к структуре. Модель могла ответить: «Согласно ст. 81 ТК РФ…» — и формально это было верно, но не указывала конкретную часть и пункт. Юристу приходилось самому искать нужное место.
Сейчас работает Smart Chunker — парсер, который трекает полную иерархию документа:
Раздел → Глава → Статья → Часть → Пункт → Подпункт
Каждый фрагмент в базе содержит точную ссылку. Когда модель формирует ответ, она цитирует с точностью до пункта. Юрист может проверить конкретную норму за секунды, а не минуты.
Покрытие метаданных статей в RAG-чанках выросло с 47% до 89.9% после внедрения Smart Chunker.
Валидатор ссылок: каждая цитата проверяется
Даже с RAG модель может допустить ошибку: правильно найти нужную норму, но в ответе указать неверный номер статьи. Это классическая «мягкая галлюцинация» — смысл верный, ссылка неточная.
Citation Validator решает эту проблему:
- Парсит каждую ссылку в ответе: «Согласно ст. 5 ФЗ…» → извлекает номер статьи и закона
- Ищет эту конкретную статью в базе данных
- Если статья не существует или номер не совпадает — помечает как broken citation
- Юрист видит пометку и может скорректировать ссылку
До внедрения Citation Validator точность ссылок была около 85% — каждая шестая ссылка могла быть неточной. После внедрения — выше 99%. Это значит, что из 100 ссылок в ответах AI максимум 1 потребует корректировки.
Санити-чек: ловим глупые ошибки классификатора
Реальный случай из разработки: модель-классификатор присвоила ФЗ No 33 «Об общих принципах организации местного самоуправления» категорию MEDICAL с confidence 0.95. Почему? Потому что в обучающих данных «33-ФЗ» часто встречался рядом с медицинской тематикой.
Санити-чек — это набор из 74 regex-правил, написанных на основе анализа реального корпуса документов:
- Модель сказала «медицинский закон»? Проверяем: есть ли в тексте слова из медицинского лексикона
- Confidence ниже 0.3? Автоматически помечаем для ручной проверки юристом
- «Банкротство» → ENTREPRENEURIAL, «конкуренция» → COMPLEX — правила из реального корпус-анализа
Результат: до внедрения санити-чека ошибки классификации составляли 9.4%. После — менее 0.5%. Дешево (5ms на запрос), надежно, ловит 90%+ типичных AI-фантазий.
Аудит вторым AI: двойная проверка перед юристом
Audit Runner — это ежедневный процесс, который прогоняет выборку реальных ответов через второй AI с задачей: «Найди потенциальные ошибки». Он ищет:
- Неточные цитаты статей закона
- Ссылки на нормы, которые утратили силу или еще не вступили в действие
- Выводы, не подкрепленные найденными в базе фрагментами
- Противоречия между разными частями ответа
Результаты попадают в дашборд. Юрист видит, какие ответы нужно перепроверить в первую очередь. Каждый ответ получает confidenceScore — объединение оценки основного AI и результата аудита.
Эффект: доля ответов, требующих правки юристом, снизилась с примерно 40% до 15-20%.
Псевдонимизация: защита данных до отправки в AI
Это решает сразу две проблемы. Первая — защита персональных данных: PII клиента не попадает в логи внешнего AI-провайдера. Для юридического сервиса, работающего с чувствительной информацией, это критично.
Вторая — борьба с «ассоциативными галлюцинациями». Если клиента зовут так же, как известное публичное лицо, модель может начать «дополнять» ответ информацией об этом человеке. Замена ФИО на [CLIENT_1] исключает такой сценарий.
Подробнее о том, как ЭдПрав работает с персональными данными при передаче в сторонние сервисы, мы писали в отдельной статье.
Актуальность: отмененные нормы не попадут в ответ
Классическая проблема AI-юристов: модель обучалась на данных до определенной даты и может ссылаться на нормы, которые уже отменены. Для онлайн-школ это особенно актуально — требования к согласиям и правила рекламы меняются регулярно.
В ЭдПрав каждый документ имеет:
- Статус: ACTIVE (действующий), EXPIRED (утратил силу), NOT_YET_EFFECTIVE (еще не действует), REPEALED (отменен)
- Даты: вступления в силу, истечения срока, последней редакции
- Цепочку версий: ссылки на предыдущие и заменяющие редакции
Поиск по умолчанию показывает только действующие нормы. Если запрос касается событий прошлого (например, «что было в 2020 году») — система ранжирует выше редакции, действовавшие на тот момент.
Отдельно работает freshness-alert: если в ответе используется норма, редакция которой свежее 30 дней, пользователь видит предупреждение «свежая редакция, практика еще формируется».
Цифры: до и после
| Метрика | До защиты | После |
|---|---|---|
| AI-классификация документов (confidence 0.5+) | ~70% | более 95% |
| Покрытие метаданных в RAG-чанках | 47% | 89.9% |
| Точность ссылок на конкретные нормы | ~85% | более 99% |
| Время проверки юристом одного ответа | 8-12 мин | 2-3 мин |
| Доля ответов, требующих правки юриста | ~40% | 15-20% |
Каждый слой защиты работает независимо. Если один пропустит ошибку — следующий поймает. RAG не даст модели изобрести статью. Citation Validator проверит точность ссылки. Санити-чек поймает абсурдную классификацию. Аудит-раннер найдет тонкие неточности. Юрист проверит итоговый результат.
Именно поэтому в ЭдПрав каждый персонализированный запрос проходит через AI и проверяется живым юристом. Не потому что AI плохой — а потому что закон ошибок не прощает.
Частые вопросы
Может ли AI ЭдПрав сослаться на несуществующую статью закона?
Нет. Модель отвечает только на основе базы из 110 000+ фрагментов реальных российских законов (RAG-архитектура). Каждая ссылка в ответе дополнительно проверяется Citation Validator: существует ли эта статья в базе и совпадает ли номер. Точность ссылок — выше 99%.
Зачем нужен юрист, если AI уже проверяется 6 слоями защиты?
AI отлично справляется с поиском норм, классификацией и подготовкой черновика анализа. Но юридическая оценка ситуации — это не только знание закона, но и понимание судебной практики, неписаных правил и контекста конкретного клиента. Юрист в ЭдПрав не исправляет ошибки AI (их осталось менее 15-20%) — он добавляет экспертную оценку.
Как часто обновляется база законов в ЭдПрав?
База обновляется по мере принятия изменений в законодательстве. Каждый документ имеет статус (действующий, утративший силу, еще не вступил), даты вступления и истечения, цепочку версий. Поиск автоматически исключает неактуальные нормы. Если используется свежая редакция (менее 30 дней) — вы увидите предупреждение.
Что происходит с персональными данными клиента при обработке AI?
Все ФИО, номера документов (паспорт, СНИЛС, ИНН), контакты автоматически заменяются псевдонимами перед отправкой в AI-модель. Модель работает с обезличенными данными. После получения ответа происходит обратная замена. Персональные данные не попадают в логи внешних провайдеров.
Не хотите разбираться сами?
Задайте юридический вопрос AI-юристу ЭдПрав. Справочные запросы бесплатно, без ограничений. Каждый персонализированный ответ проверяется дипломированным юристом.
Статья подготовлена на основе актуальной архитектуры ЭдПрав на май 2026 года. Для получения консультации по вашему конкретному случаю рекомендуем обратиться к специалисту.
Не хотите разбираться сами?
ЭдПрав проверит ваш сайт и подготовит все необходимые документы. От 396 ₽ за запрос.
Попробовать бесплатно →