Мультимодальность

Работа с таблицами, сканами, изображениями и смешанными форматами.

Правовые документы существуют не только в виде редактируемого текста. Сканы договоров, фотографии протоколов заседаний, таблицы в Excel, изображения приложений к договорам — всё это часть повседневной работы юриста. Современные ИИ-модели умеют работать не только с текстом, но и с изображениями, что открывает новые возможности для обработки нетекстового контента.

Что такое мультимодальность

Мультимодальность означает способность модели принимать на вход данные разных типов: текст, изображения, а в некоторых случаях — аудио и видео. Для юриста практически важны три сценария:

  1. Работа со сканами документов — анализ изображений печатных или рукописных документов
  2. Анализ таблиц и структурированных данных — обработка финансовых таблиц, реестров, сравнительных расчётов
  3. Извлечение информации из визуальных материалов — схемы корпоративной структуры, организационные диаграммы, карты объектов

OCR + ИИ: работа со сканами

Классический подход с OCR

OCR (Optical Character Recognition — оптическое распознавание символов) превращает изображение в редактируемый текст. После этого текст передаётся в ИИ для анализа.

Инструменты для OCR:

  • ABBYY FineReader — профессиональный стандарт в России, хорошо работает с кириллицей
  • Adobe Acrobat Pro — встроенное распознавание текста в PDF
  • Google Drive — бесплатное распознавание при загрузке изображения как Google Docs
  • Yandex OCR — доступен через API, хорошо адаптирован для русского языка

Схема работы:

  1. Загрузите скан в OCR-инструмент
  2. Получите текст, проверьте и исправьте явные ошибки распознавания
  3. Передайте текст в ИИ для анализа

Прямой анализ изображений

Современные модели (GPT-5.5, Claude Sonnet 4.6, Gemini 3.1 Pro) умеют «читать» изображения напрямую, без предварительного OCR. Это особенно полезно для:

  • Рукописных документов с неравномерным почерком
  • Старых документов с потёртым текстом
  • Документов со сложной разметкой (таблицы, колонки, печати)
На изображении — скан договора [тип]. Пожалуйста:
1. Прочитайте и воспроизведите текст документа максимально точно
2. Обозначьте [скобками] фрагменты, которые вы не смогли прочитать уверенно
3. После воспроизведения текста кратко опишите структуру документа

Важное ограничение: качество распознавания существенно зависит от качества скана. Низкое разрешение, плохое освещение, перекосы — всё это снижает точность. Всегда проверяйте критически важные данные (даты, суммы, наименования сторон) по оригиналу.

Анализ таблиц и финансовых данных

Due diligence с финансовыми таблицами

В рамках правовой и финансовой экспертизы юристы нередко работают с таблицами: реестры кредиторов, расчёты убытков, перечни активов. ИИ помогает быстро структурировать и проверить данные.

Промпт для анализа таблицы:

Передаю таблицу [описание: например, реестр кредиторов / расчёт неустойки / перечень объектов].

[вставьте таблицу как текст или загрузите изображение/Excel-файл]

Задача:
1. Проверьте арифметику — есть ли ошибки в расчётах?
2. Выделите строки, где данные выглядят аномально (резкие отклонения от среднего, нулевые значения, дубли)
3. Подготовьте краткое резюме: общий итог, топ-5 позиций по [сумме / значению], выявленные несоответствия

Сценарий из практики: в рамках M&A вы получили таблицу дебиторской задолженности на 500 строк в Excel. Загрузите её в ChatGPT с анализом данных или Claude и попросите:

Передаю файл с дебиторской задолженностью компании-цели.

Проведите анализ:
1. Распределение задолженности по срокам (до 30 дней, 30–90 дней, свыше 90 дней)
2. Доля просроченной задолженности
3. Крупнейшие дебиторы (топ-10 по сумме долга)
4. Аномалии: дебиторы с признаками связанных сторон, нестандартные условия
5. Общий вывод о качестве дебиторской задолженности

Практические сценарии для юридической практики

Обработка исторического договора

Задача: у вас есть скан договора аренды 1998 года, который необходимо проверить в рамках due diligence.

  1. Сканируйте документ в высоком разрешении (минимум 300 DPI)
  2. Загрузите изображение в мультимодальную модель
  3. Используйте промпт: «Прочитайте этот документ и выделите: стороны, предмет, срок, основные условия. Отметьте нечитаемые фрагменты»
  4. Проверьте критические данные по оригиналу
  5. Передайте распознанный текст в ИИ для полноценного правового анализа

Схемы корпоративной структуры

Корпоративные юристы нередко работают со схемами владения, которые существуют в виде изображений (PNG, JPEG). ИИ может помочь:

На изображении — схема корпоративной структуры группы компаний.
Опишите:
1. Перечень юридических лиц и их тип (ООО, АО, иностранная компания)
2. Цепочки владения с указанием долей
3. Наличие иностранных элементов в структуре
4. Возможные регуляторные вопросы, которые следует проверить

Ограничения мультимодального анализа

  • Точность OCR: даже лучшие модели ошибаются при распознавании. Никогда не используйте результат без проверки критических данных.
  • Сложные печати и подписи: ИИ не верифицирует подлинность документов — это требует других методов экспертизы.
  • Форматирование таблиц: сложные таблицы с объединёнными ячейками могут распознаваться некорректно.
  • Конфиденциальность: не загружайте в облачные ИИ-сервисы документы с персональными данными без оценки соответствия требованиям 152-ФЗ и политике безопасности вашей организации.

Ключевые выводы

  • Мультимодальные ИИ (GPT-5.5, Claude Sonnet 4.6, Gemini 3.1 Pro) умеют читать сканы документов напрямую, без предварительного OCR.
  • Для высококачественного распознавания кириллицы используйте ABBYY FineReader или Yandex OCR.
  • Анализ таблиц с помощью ИИ особенно эффективен в due diligence: быстрое выявление аномалий, расчёт итогов, структурирование данных.
  • Всегда проверяйте критически важные цифры и реквизиты по оригиналу — ошибки распознавания неизбежны.
  • Перед загрузкой чувствительных документов в облачные сервисы оцените требования информационной безопасности вашей компании.