Работа с длинными документами

Стратегии обработки документов на 100+ страниц: разбивка, суммаризация, навигация.

Многостраничные договоры, инвестиционные меморандумы, корпоративные уставы, материалы судебных дел — юристы регулярно сталкиваются с документами, которые нельзя прочитать за несколько минут. ИИ открывает возможность работать с такими документами принципиально иначе, но требует понимания технических ограничений и стратегий их преодоления.

Что такое контекстное окно и почему это важно

Каждая языковая модель имеет «контекстное окно» — максимальный объём текста, который она может обработать за один раз. Измеряется в токенах (грубо: 1 токен ≈ 0,7 слова на русском).

Актуальные ориентиры на май 2026 года:

  • GPT-5.5: длинный контекст в API; в ChatGPT лимит зависит от режима и плана.
  • Claude Opus 4.7 / Sonnet 4.6: длинный контекст; точный лимит зависит от плана и режима доступа.
  • Gemini 3.1 Pro: длинный контекст и сильная мультимодальность; фактический лимит зависит от продукта и тарифа.

Практический вывод: для документов до 100–150 страниц современные модели с большим контекстом обычно справляются без разбивки. Для документов 200+ страниц, сканов с ошибками OCR или нескольких документов одновременно лучше использовать специальные стратегии.

Стратегия 1: Загрузка целиком (для документов до 200 страниц)

Если документ вписывается в контекстное окно, загружайте его полностью. Это обеспечивает целостность анализа — модель видит все взаимосвязи между разделами.

Перед вами договор об акционерном соглашении объёмом [N страниц].

[полный текст документа]

Задача 1: Подготовьте структурированное оглавление с кратким описанием каждого раздела.
Задача 2: Выделите 10 наиболее значимых условий с точки зрения рисков для [сторона].
Задача 3: Укажите разделы, требующие первоочерёдного внимания юриста.

Стратегия 2: Чанкинг (разбивка на части)

Когда документ превышает контекстное окно или вы работаете с моделью с меньшим окном, используйте последовательный анализ по частям.

Схема работы:

  1. Разделите документ на логические части (по разделам или главам).
  2. Анализируйте каждую часть отдельным промптом.
  3. Ведите накопительный «журнал находок» — передавайте его в каждый новый промпт.
Это часть 1 из 4 большого корпоративного договора. Я буду передавать части последовательно.

[текст части 1]

По этой части:
1. Перечислите ключевые обязательства каждой стороны
2. Выделите необычные или нестандартные условия
3. Отметьте ссылки на другие разделы, которые нужно проверить в следующих частях

В конце скажите: "Готов к части 2."

После каждой части передавайте новый фрагмент с напоминанием о контексте:

Продолжаем анализ. Вот часть 2 из 4.

Из части 1 мы выяснили: [краткое резюме находок из части 1]

[текст части 2]

Проведите аналогичный анализ. Проверьте также: противоречат ли условия этой части тому, что мы видели в части 1?

Стратегия 3: Map-Reduce для обобщения

Map-Reduce — подход, позаимствованный из обработки данных, хорошо работает для аналитических задач по большим документам.

Map (шаг 1): анализируйте каждый раздел независимо с одним и тем же промптом.

Ниже — раздел [N] договора. Ответьте только на три вопроса:
1. Какова основная тема этого раздела?
2. Какие обязательства возникают у нашей стороны?
3. Какие риски несёт этот раздел?

[текст раздела]

Reduce (шаг 2): соберите все ответы и попросите ИИ их обобщить.

Ниже — анализ каждого раздела договора, подготовленный последовательно.

[собранные ответы по всем разделам]

На основе этого анализа:
1. Подготовьте сводный отчёт о ключевых рисках
2. Составьте список наиболее критичных условий
3. Выделите противоречия между разделами
4. Дайте общую оценку договора с точки зрения интересов нашей стороны

Практический пример: анализ 200-страничного корпоративного договора

Ситуация: вам нужно провести правовую экспертизу соглашения акционеров для клиента. Документ — 200 страниц.

Порядок действий:

  1. Загрузите документ в Claude Opus 4.7, Claude Sonnet 4.6 или Gemini 3.1 Pro.
  2. Первый промпт — структурирование: попросите составить оглавление и выделить разделы по темам (корпоративное управление, дивиденды, выход из компании, антиразводнение и т.д.).
  3. Второй промпт — риски: «Какие условия наиболее критичны с точки зрения интересов миноритарного акционера?»
  4. Третий промпт — углублённый анализ конкретных разделов: «Подробно проанализируйте раздел о tag-along и drag-along правах».
  5. Финальный промпт — контраргументы: «Предположим, мажоритарный акционер хочет максимально ограничить права миноритария. Какие условия этого договора ему в этом помогают?»

Советы по сохранению точности при чанкинге

  • Всегда передавайте контекст предыдущих частей. Даже краткое резюме в 3–5 предложений существенно улучшает качество анализа следующей части.
  • Используйте одинаковую структуру ответа. Попросите ИИ отвечать в одном и том же формате на каждой итерации — это упростит финальное обобщение.
  • Проверяйте перекрёстные ссылки. В длинных договорах часто встречаются ссылки типа «в соответствии с пунктом 15.3». Специально просите ИИ отслеживать такие ссылки и проверять согласованность.
  • Делайте финальный проход по находкам. После анализа всех частей передайте список найденных рисков и спросите: «Нет ли между этими рисками взаимосвязей, которые делают их совокупный эффект более серьёзным?»

Ключевые выводы

  • Современные модели с большим контекстом способны обрабатывать большинство отдельных юридических документов целиком, но тариф и режим модели нужно проверять перед работой.
  • Для документов, превышающих контекстное окно, используйте стратегии чанкинга или map-reduce.
  • При чанкинге передавайте накопительный контекст между запросами — это критично для качества итогового анализа.
  • Последовательность промптов (структура → риски → детальный анализ → контраргументы) даёт более глубокий результат, чем один общий запрос.
  • Перекрёстные ссылки между разделами длинного документа требуют особого контроля.