Что делает инструмент «Сравнить PDF»
«Сравнить PDF» берёт два PDF, вытаскивает текст из обоих и показывает построчно, что изменилось: что добавлено, что удалено, что осталось. Брось оригинал в один слот, обновлённую версию в другой, нажми «Сравнить» — и за несколько секунд получишь редлайн. Выбери «Бок о бок» для классической двухпанельной раскладки, которую ждут проверяющие договоры, или «Единый» — одна колонка с маркерами +/− (формат, который git использует для диффа кода).
Скажу вслух, потому что этот вопрос задают первым: это ТЕКСТОВЫЙ diff, а не визуальный. Инструмент читает поток текста из каждого PDF и сравнивает эти строки символов. Он не сравнивает вёрстку, шрифты, цвета, изображения, подписи или место на странице. Если нужно сравнение по пикселям, Adobe Acrobat Compare Files — правильный инструмент, и мы ещё раз скажем это ниже. Для сравнения слов в двух PDF — а это нужно в 90% задач правок договоров, корректуры и мониторинга политик — этот инструмент правильной формы и работает за секунды.
Весь конвейер крутится в браузере. PDF.js (рендер от Mozilla, тот же, что внутри Firefox) извлекает текст. Пакет diff — тот же алгоритм, что у git и большинства код-ревью инструментов — гоняет построчное сравнение. PDF не загружаются.
Как работает diff, простыми словами
Алгоритм называется diffLines, идея простая: найти самую длинную общую подпоследовательность строк в двух документах, пометить остальное как «добавленное» (строки, которые есть в обновлённом PDF, но не в оригинале) или «удалённое» (которые есть в оригинале, но не в обновлённом), и выдать результат в порядке исходника. Это тот же алгоритм, который шлифуют со 1970-х; именно его GitHub использует каждый раз, когда ты открываешь pull request.
Что считается «изменением»? Любая строка, не побайтно идентичная другой. Поменяй одно слово в абзаце — и вся строка помечается удалённой, а новая версия добавленной — стандартное поведение diff. Пробелы считаются: концевой пробел меняет строку. Пунктуация считается: замена запятой на точку с запятой меняет строку. Если нужна точность до слова — подсветка только изменившихся слов внутри неизменённого предложения — открой оба файла в специализированном редлайн-инструменте вроде Litera Compare или Workshare Compare. Это другой алгоритм и куда более тяжёлый продукт.
Для большинства реальных правок — контрагент переписал пункт об индемнификации, редактор переделал второй абзац, юристы заменили «shall» на «will» в трёх местах — построчного хватает, чтобы увидеть точно, что поехало. Сводка сверху даёт сырые цифры: X добавлено, Y удалено, Z без изменений. Тело показывает, какие именно строки.
«Бок о бок» vs «Единый» — какой режим выбрать
Инструмент даёт оба вида, потому что разным задачам удобна разная форма.
| Вид | Что видишь | Для чего лучше |
|---|---|---|
| Бок о бок | Две колонки. Слева — оригинал. Справа — обновлённый. Соседние удалённые и добавленные куски парятся в одну строку, если стоят рядом в потоке diff. | Правки договоров, проза, где хочется читать старую и новую версии параллельно и чувствовать фактуру изменения. |
| Единый | Одна колонка. Удалённые строки с префиксом − (красным). Добавленные — с + (зелёным). Контекстные — без изменений. Тот же формат, что выдаёт git diff. | Быстрое сканирование, скриншоты для разработчиков, любой, кто свободно читает git-ревью. |
Оба вида питаются одними и теми же данными diff, переключение ничего не пересчитывает. Туда-сюда сколько угодно — большинство проверяющих останавливаются на «Бок о бок» для первого прохода (почувствовать форму изменений) и на «Едином» для второго (точно посчитать добавления и удаления).
Как сравнить два PDF
- Брось два PDF в слоты. Слот «Оригинал» — более ранняя версия. Слот «Обновлённый» — более новая. Порядок важен: удалённые строки — те, что есть в Оригинале, но нет в Обновлённом; добавленные — наоборот. Поменяй слоты местами — и «добавленные» станут «удалёнными».
- Нажми «Сравнить». Инструмент читает каждый PDF (несколько секунд на сотню страниц), извлекает текст через PDF.js, восстанавливает разрывы строк из вёрстки и запускает
diffLines. - Прочитай сводку сверху: X добавлено, Y удалено, Z без изменений. Часто этого числа уже достаточно — «4 строки изменилось на 80 страницах» — это совсем другой разговор, чем «412 строк изменилось».
- Пролистай diff. Переключай «Бок о бок» и «Единый» — как удобнее глазам.
- Нужно поделиться найденным? Сделай скриншот — скачивания нет, это просмотрщик, а не редактор. Большинство проверяющих скриншотят пару ключевых кусков и кидают в Slack, почту или систему управления договорами.
Разбор примера: договор вернулся с правками
3 апреля ты отправил SaaS-соглашение контрагенту по имени Globex. 8 мая они вернули его с предложенными правками. В сопроводительном письме написано «незначительные изменения», но ты в индустрии достаточно давно, чтобы захотеть проверить самому.
Бросаешь globex-msa-2026-04-03.pdf в Оригинал и globex-msa-2026-05-08-revised.pdf в Обновлённый. Жмёшь «Сравнить». Сводка: 23 добавлено, 18 удалено, 1847 без изменений. То есть около 41 строки поехало на 60-страничном документе. «Незначительные» — слово, которое здесь хорошо работает.
Сканируешь вид «Бок о бок». Первая партия изменений — хозяйственные: адреса обновили, дату вступления в силу сдвинули. В разделе 4 (Платежи) три правки — Globex поменял условия оплаты с Net 30 на Net 45 — это реальное изменение, стоит пометить. В разделе 7 (Ограничение ответственности) удалили восемь строк и добавили двенадцать; потолок переписан, исключения расширены. Этот раздел требует внимательного чтения. В разделе 12 (Прекращение) — две мелкие замены слов, смысл не меняется.
Скриншотишь diff раздела 7, кидаешь в канал Slack с генеральным юристом, пишешь: «Globex переписал 7. Стоит 10 минут посмотреть». Полное время от получения редлайна до выноса существенного изменения — около четырёх минут. Альтернатива — читать два PDF параллельно в двух окнах экрана, мысленно сравнивать 60 страниц юридической прозы — это та же работа в формате на полдня.
Почему только текст, а не визуал
Первое, что спрашивают, услышав «сравнение PDF»: «А найдёт ли он перемещённые блоки и изменения шрифтов?». Честный ответ: нет, и это сделано осознанно.
Настоящий визуальный diff — серьёзный продукт. Отрендерить оба PDF в пиксели, выровнять соответствующие страницы, обнаружить перемещённые блоки, цветом разметить изменения шрифтов и цветов, отличить смысловые правки от перетоков вёрстки — это месяцы инженерной работы, и в этом поле доминируют платные продукты (Adobe Acrobat Compare Files, Litera Compare, Workshare Compare, Draftable). Они берут деньги за это, потому что работа сложная, а клиенты — юридические фирмы с серьёзными бюджетами.
Мы заметили вот что: большинству, кто тянется за «сравнением PDF», не нужен анализ по пикселям. У них две версии договора, политики, статьи или меморандума, и они хотят знать, что слова говорят по-разному. Текстовое содержимое PDF извлекается просто, алгоритм diff хорошо изучен, и результат сканируется быстрее, чем многоцветный визуальный редлайн. Сделать инструмент на 90% случаев, который открывается в браузере, гоняется бесплатно, а на оставшиеся 10% направлять к Acrobat. Такая сделка.
Что ловит инструмент и что упускает
Точность важна, потому что ценность любого diff-инструмента — в понимании, что он может сказать.
| Тип изменения | Ловится? | Как отображается |
|---|---|---|
| Слово добавлено или удалено в предложении | Да | Вся строка помечается удалённой + новая строка добавлена |
| Абзац вставлен или удалён | Да | Блок добавленных или удалённых строк |
| Числа, даты, суммы изменены | Да | Замена на уровне строки, как для текста |
| Разница в пробелах (концевой, двойной) | Да | Строка помечается изменённой |
| Шрифт изменён (Times → Arial) | Нет | Текст тот же → не помечается |
| Цвет изменён (чёрный → красный) | Нет | Текст тот же → не помечается |
| Изображение вставлено, удалено или перемещено | Нет | Картинок нет в потоке текста |
| Подпись добавлена на странице 12 | Нет | Подписи — это изображения |
| Блок перемещён со страницы 3 на 7 | Частично | Видно как удаление на стр. 3 и добавление на стр. 7 |
| Перестановка страниц с тем же содержимым | Частично | Так же, как перемещение блоков |
| Изменение вёрстки (поля, колонки) с тем же текстом | Нет | Текст тот же → не помечается |
Закономерность: если изменение трогает слова, инструмент его находит. Если изменение трогает только то, как слова выглядят, — не находит. Для проверки договоров, корректуры прозы и мониторинга политик это почти всегда правильный охват. Для аудита бренд-гайдлайнов, проверки вёрстки и подписей — нет.
Частые сценарии
Реальные задачи, с которыми приходят.
- Правки договоров. Контрагент возвращает договор со своими правками. Хочешь убедиться, что они действительно поменяли, помимо помеченного в письме. Сравнение за 30 секунд; читаешь только существенные изменения.
- Корректура черновиков. Сравнение черновика N с N+1 — убедиться, что твои правки на месте и ничего больше не поехало. Особенно полезно, когда документ редактирует несколько человек.
- Мониторинг политик и условий. Тихо ли обновили политику конфиденциальности? Переписали ли кодекс поведения компании? Сохраняй PDF раз в месяц, сравнивай с прошлой копией. Увидишь точно, что поменялось.
- Проверка переводов. Один документ в двух региональных вариантах — американский vs британский английский, бразильский vs европейский португальский. Diff выносит каждую переведённую фразу, что отличается.
- Финансовые отчёты год к году. Тот же шаблон, другой финансовый год. Diff показывает, какие строки выросли, какие сократились, какие появились, какие исчезли.
- Правки академических статей. Рецензент возвращает статью с правками; хочется быстро прикинуть масштаб правки до построчного чтения.
- Подтверждения комплаенса. Многие комплаенс-документы версионированы. Сравни текущую опубликованную версию с последней подтверждённой — увидишь, что поменялось с прошлого аудита.
Про Adobe Acrobat Compare Files
В Adobe Acrobat Pro есть функция Compare Files, которая делает то же, что этот инструмент, плюс визуальное сравнение. Ловит изменения шрифтов, правки картинок, сдвиги вёрстки, изменения цветов — всё. Стоит $20–30 в месяц в зависимости от плана и требует установленного Acrobat Pro. Если у тебя большой объём юридического редлайна, сравнение бренд-ассетов или что-то, где визуальная верность важна не меньше текста, — Acrobat правильный ответ, рекомендуем без колебаний.
Что предлагает наш инструмент: брось два файла, увидь текстовый diff за секунды, бесплатно, без установки, без загрузки. Для случая «сравнить прозу» — а это большинство случаев — сделка хорошая. Умный сценарий: сначала бесплатный текстовый diff для оценки масштаба, потом Acrobat, если визуальный слой имеет значение.
История с приватностью
PDF, которые сравнивают, часто — те самые документы, которыми меньше всего хочется делиться. Договоры. Опечатанные судебные подачи. Черновики M&A-документов. Отчёты по компенсациям. Личные медкарты. Меморандумы внутренних расследований. Это документы, где «мы загружаем на сервер и обрабатываем там» — модель iLovePDF, SmallPDF и большинства облачных сравнений PDF — неправильная форма.
«Сравнить PDF» работает полностью в браузере. PDF.js извлекает текст в памяти JavaScript. Пакет diff сравнивает в памяти JavaScript. Результаты отрисовываются в DOM. PDF не касаются сети. Сервера для соблюдения политики приватности нет, потому что сервера в цепочке нет. Открой инструменты разработчика, перейди на вкладку Network, запусти полное сравнение: ноль исходящих запросов на этапе сравнения. Сетевой трафик только при загрузке страницы.
Это не обещание приватности — это архитектура. Утекать нечему, потому что в полёте ничего нет.
Похожие PDF-инструменты
- Извлечь текст из PDF — вытащить сырой текст из PDF, удобно когда хочется сравнивать в отдельном текстовом редакторе или скормить содержимое другому инструменту.
- Проверка различий текста — тот же построчный diff для обычного текста, а не PDF. Вставь два блока, посмотри сравнение.
- Разделить PDF — разбить большие PDF на главы до сравнения; по разделам быстрее, чем гонять многотысячное сравнение за один проход.
- Объединить PDF — собрать результат сравнения (как скриншот) с оригинальными PDF в один пакет для обзора.
- Подписать PDF — когда обзор обновлённого договора закончен и пора подписывать.
Про Microapp
Microapp — это набор маленьких сфокусированных инструментов, которые открываются во вкладке, делают одну работу и отпускают. «Сравнить PDF» — один из примерно 140 инструментов каталога. Модель членства устроена как Costco: Members получают чистые страницы и ИИ по цене вычислений; не-Members — те же инструменты с рекламой на странице. 10% от каждого заработанного доллара Microapp идут на благотворительность — сверху, с аудитом раз в квартал. Инструменты подобраны, а не просто собраны.
Частые вопросы
Что считается «изменением»?
Любая строка, не побайтно идентичная другой. Инструмент режет оба PDF на строки, гоняет стандартный diffLines и помечает каждую строку как добавленную, удалённую или без изменений. Замена одного слова помечает всю строку удалённой И добавляет новую версию — так работает построчный diff. Пробелы считаются: концевой пробел меняет строку. Для точности до слова бери редлайн-инструмент вроде Litera Compare.
Почему только текст? У PDF же есть вёрстка.
Потому что честно быстрее, чем полу-волшебно. Настоящий визуальный diff — серьёзный продукт: отрисовать оба PDF в пиксели, выровнять страницы, найти перемещённые блоки, цветом отметить изменения шрифтов. Это делает Adobe Acrobat Compare Files, и не зря стоит денег. Мы сравниваем извлечённый текст — этого хватает на 90% задач правок договоров и корректуры. Вёрстка, шрифты, картинки, подписи — мы их не ловим. Так и пишем прямо над каждым результатом.
Как работает построчный diff?
Используем алгоритм diffLines из пакета diff — тот же подход, что у git и большинства код-ревью инструментов. Он находит самую длинную общую подпоследовательность строк и помечает остальное как добавленное или удалённое. В режиме «Бок о бок» соседние удалённые и добавленные куски пары идут в одну строку. В «Едином» удалённые строки идут перед соответствующими добавленными, с префиксами − и +.
Сработает на больших PDF?
До 100 МБ и 500 страниц на файл. Медленный шаг — извлечение текста (несколько секунд на сотню страниц на нормальном ноутбуке); сам diff почти мгновенен для документов до ~50 000 строк. Для многотысячных страниц юридического раскрытия сначала разбей PDF на главы нашим Split PDF и сравнивай по разделам.
Работает ли на отсканированных PDF?
Нет. Сканы — это картинки текста, а не текст. Извлекатель вернёт пустоту или почти пустоту, и diff будет бессмысленным. Если у тебя сканы, сначала пропусти через OCR (Adobe Acrobat, macOS Preview, Tesseract), чтобы добавить текстовый слой, потом сравнивай здесь.
Мои PDF правда не загружаются?
Верно. PDF.js (библиотека, которая рендерит PDF внутри Firefox) и алгоритм diff работают в браузере. Файлы идут с диска в память браузера, там сравниваются, результат отрисовывается на экран — на сервер ничего не уходит. Проверь вкладку Network во время сравнения: ноль исходящих запросов.
Почему не Adobe Acrobat Compare Files?
Compare Files в Acrobat — золотой стандарт для визуального сравнения PDF: рендер страниц, детектирование шрифтов, диффинг изображений — если это нужно, бери его. Наш инструмент для случая только-текст: быстрее (брось два файла, видь результат за секунды), бесплатно, без установки, в любом браузере. Для сравнения прозы (договоры, статьи, политики) текст обычно и нужен, и сканировать его быстрее, чем визуальный редлайн.