Обезличивание документов перед ИИ
Практический порядок подготовки документов к загрузке: что удалить, заменить или оставить.
Обезличивание — это не формальная «замена имён звёздочками», а рабочий способ сохранить пользу от ИИ и снизить риск раскрытия чувствительной информации. Для юриста задача состоит в том, чтобы оставить модели юридически значимый контекст, но убрать всё, что позволяет идентифицировать клиента, контрагента, сотрудника, сделку или внутренний проект.
Хорошее правило: если без конкретного имени, ИНН, адреса или номера договора модель всё равно сможет решить задачу, эти данные лучше заменить.
Что нужно убрать или заменить
Перед загрузкой документа в публичный ИИ-сервис проверьте четыре группы данных.
1. Прямые идентификаторы
- ФИО физических лиц
- паспортные данные
- адреса, телефоны, email
- ИНН, СНИЛС, банковские реквизиты
- номера договоров, заявок, счетов, претензий и дел
Такие данные обычно не нужны модели для анализа правовой логики. Их можно заменить на устойчивые обозначения: «Работник 1», «Контрагент А», «Договор 1», «Проект Бета».
2. Коммерчески чувствительные сведения
- реальное название клиента или группы компаний
- условия сделки, которые не раскрываются публично
- маржинальность, скидки, финансовая модель
- стратегия переговоров или судебного спора
- внутренние выводы службы безопасности, compliance или аудита
Если эти сведения важны для анализа, передавайте их в обобщённом виде: «крупный поставщик», «скидка выше стандартной», «ключевой клиент», «высокая зависимость от одного контрагента».
3. Персональные и специальные категории данных
Особенно осторожно работайте с трудовыми, медицинскими, семейными, миграционными и наследственными сюжетами. В них часто есть данные, которые кажутся «просто фактами дела», но фактически позволяют идентифицировать человека или раскрывают чувствительные обстоятельства.
4. Документы с режимом тайны
Если материал связан с адвокатской тайной, NDA, внутренним расследованием, M&A, спором с высокой ценой или регуляторной проверкой, публичный ИИ не должен быть рабочим хранилищем. В таких случаях лучше использовать согласованный корпоративный контур, локальное решение или работать только с сильно обезличенными фрагментами.
Как обезличивать без потери смысла
Плохое обезличивание уничтожает контекст. Хорошее сохраняет юридическую картину.
| Было | Лучше передать в ИИ |
|---|---|
| ООО «Ромашка», ИНН 7700000000 | Заказчик |
| Иванов Иван Иванович, директор | Директор заказчика |
| 17 438 920 рублей | крупная сумма задолженности / сумма X |
| адрес склада в Казани | склад в регионе поставки |
| договор № 45/М от 12.03.2026 | договор поставки |
Сохраняйте роли сторон, тип документа, отрасль, юрисдикцию, существенные условия и хронологию. Убирайте то, что раскрывает личность или конкретный проект.
Таблица замен
Для длинных документов удобно вести отдельную таблицу замен. Она остаётся у вас, а в ИИ уходит только обезличенная версия.
ООО «Ромашка» -> Заказчик
АО «Север» -> Поставщик
Иванов И.И. -> Директор заказчика
Договор № 45/М -> Договор поставки
Проект «Атлас» -> Проект
После получения ответа вы возвращаете реальные данные вручную. Это особенно полезно, когда ИИ готовит таблицу рисков, проект письма, список вопросов или структуру правовой позиции.
Что можно оставить
Модели обычно нужны не имена, а структура задачи:
- тип документа: договор поставки, NDA, претензия, иск, корпоративное решение;
- применимое право и юрисдикция;
- роли сторон;
- предмет обязательства;
- важные даты в относительном виде;
- спорные условия;
- позиция вашей стороны;
- ожидаемый формат ответа.
Например, вместо полного договора с реквизитами можно дать фрагмент:
Я представляю Заказчика по договору поставки по российскому праву.
Поставщик нарушил срок поставки на 45 дней. В договоре есть неустойка,
но также есть ограничение ответственности размером цены партии.
Проанализируй риски условия об ограничении ответственности для Заказчика.
Не придумывай судебную практику. Сформируй таблицу:
риск — почему важен — что проверить — как усилить позицию.
Инструменты для автоматизации
Для единичных задач достаточно ручной замены. Если команда регулярно готовит документы к загрузке в ИИ, стоит рассмотреть автоматизацию.
Microsoft Presidio — open-source набор для поиска и обезличивания персональных данных в тексте, изображениях и структурированных данных. Его можно разворачивать в своём контуре и настраивать под внутренние категории данных.
Private AI и аналогичные платформы — коммерческие решения для редактирования и деидентификации чувствительной информации. Их имеет смысл оценивать для команд, где поток документов большой и нужен единый стандарт обработки.
Даже при использовании таких инструментов финальную проверку должен делать человек: автоматическое распознавание может пропустить данные или, наоборот, удалить юридически значимый контекст.
Чеклист перед загрузкой
- Удалены ФИО, контакты, паспортные данные, реквизиты и номера документов.
- Названия клиентов, контрагентов и проектов заменены на роли.
- Суммы и даты обобщены там, где точность не нужна для анализа.
- Убраны сведения, раскрывающие стратегию, коммерческую тайну или внутренние выводы.
- Сохранены роли сторон, тип документа, правовой вопрос и фактическая логика.
- Понятно, в какой ИИ-сервис и на каких условиях передаются данные.
Ключевые выводы
- Обезличивание должно сохранять юридический смысл, а не просто удалять слова.
- В ИИ обычно можно передавать роли, структуру сделки, правовой вопрос и спорные условия; реальные идентификаторы чаще всего не нужны.
- Для повторяемой работы заведите таблицу замен и единый чеклист.
- Автоматические инструменты помогают, но не заменяют профессиональную проверку юриста.
- Если документ действительно чувствительный, используйте корпоративный или локальный контур, а не публичный сервис.