Что делает конвертер PDF в Excel
PDF хранит текст как позиционированные фрагменты — каждое слово знает свою (x, y) координату на странице, но ничто в файле не знает, что такое «строка» или «колонка». Конвертер PDF в Excel смотрит на эти фрагменты, кластеризует их в строки по Y-координате, разбивает каждую строку на колонки везде, где есть широкий горизонтальный промежуток, и пишет результат в настоящую книгу .xlsx. Один лист на страницу PDF. Открывай в Excel, Google Sheets, Numbers или LibreOffice Calc. Без загрузки, без водяного знака, без регистрации.
Весь конвейер работает в браузере. PDF.js (открытая PDF-библиотека Mozilla — та же, которую внутри использует Firefox) читает PDF и выдаёт нам текстовые фрагменты с координатами. SheetJS кодирует результат в бинарный формат .xlsx. Обе библиотеки работают на твоём CPU, во вкладке. Открой DevTools, переключись на Network, жми «Конвертировать». Ноль исходящих запросов. Байты не покидают машину.
Одна честная оговорка сверху: это хорошо работает на PDF, которые уже являются таблицами — финансовые отчёты, выписки, выгрузки из табличных приложений, государственные дампы данных, приложения к заседаниям совета. Хуже работает на прозаических PDF (документ с колонкой текста схлопывается в одну колонку значений ячеек — правильно, но, вероятно, не то, что ты хотел) и не работает совсем на сканах (картинка текста, не текст — это задача OCR, см. ниже). Знать, что инструмент делает и не делает, заранее — экономит впустую потраченную минуту.
Когда PDF в Excel — правильный инструмент
Таблицы каждый день попадают в ловушку PDF. Квартальные отчёты, банковские выписки, налоговые формы, счета поставщиков, государственные выгрузки, внутренние MIS-выгрузки, академические работы с таблицами результатов — везде, где когда-то жила таблица, кто-то в итоге решил «поделиться PDF-версией». Числа прямо на странице; их просто нельзя сложить, отфильтровать, отсортировать или свести.
Реальные ситуации, где этот инструмент окупается:
- Сверка банковских выписок. Банк шлёт месячные выписки PDF. Хочешь транзакции в таблице, чтобы их категоризовать, посчитать по торговцам и отдать бухгалтеру. На каждой странице выписки — таблица транзакций.
- Счета от поставщиков. Поставщик шлёт 6 счетов в месяц PDF. Кредиторской задолженности нужны строки в книге, чтобы суммировать по месяцам и сверять с заказами.
- Исследовательские данные. Государственное ведомство, академическая статья или отраслевой отчёт публикует ключевую таблицу внутри PDF. Хочешь её в Excel, чтобы построить график или соединить с собственными данными.
- Отчёты продаж из CRM. У CRM есть кнопка «Скачать PDF», но нет «Скачать Excel» — или есть только на платном тарифе. В PDF та самая таблица, за которую иначе платил бы $20 за пользователя в месяц.
- Списки классов и табели посещаемости. Учитель или администратор получает список PDF, нужно в таблице, чтобы вести учёт, оценивать или поделиться с подменяющим.
В каждом случае базовые данные — табличные, фиксированные строки и колонки, а PDF — просто обёртка, которую кто-то выбрал. Конвертер снимает обёртку и возвращает таблицу.
Как пользоваться конвертером PDF в Excel
Один экран. Зона броска сверху, короткая плашка про то, что работает и что нет, кнопка конвертации снизу.
- Брось или выбери PDF. До 100 МБ и 200 страниц.
- Прочитай жёлтую плашку — она говорит, на каких PDF это работает (таблицы) и на каких нет (проза, сканы, сложная вёрстка).
- Нажми «Конвертировать в Excel». Инструмент читает каждую страницу, кластеризует текстовые фрагменты в 2D-сетку и выдаёт один лист на страницу PDF.
- Скачай .xlsx (имя по исходному PDF —
invoice.pdf→invoice.xlsx). Открой в Excel, Google Sheets, Numbers или LibreOffice Calc. - Посмотри глазами на результат. Границы колонок — наилучшая догадка по горизонтальным промежуткам; если разделитель колонок попал не туда, поправь в табличном приложении через Text-to-Columns или редактируя ячейки напрямую.
Всё. Без «зарегистрируйся, чтобы разблокировать конверсию больше 5 страниц». Без 10-мегабайтного лимита бесплатного тарифа. Без водяного знака сквозь твои данные.
Как именно работает детекция строк и колонок
Это интересная часть, и её стоит понять, потому что она объясняет и победы, и сценарии отказа.
PDF.js даёт нам список текстовых фрагментов на страницу. У каждого фрагмента есть: строка, которую он содержит, x/y-позиция на странице (в пунктах — 72 на дюйм) и ширина. Типичная страница — сотни-тысячи фрагментов. Наша задача — превратить это в сетку.
Шаг один — кластеризация строк по Y. Фрагменты, чьи Y-координаты в пределах ~5 пт, считаются одной строкой. 5 пт — примерно полстроки основного текста, так что это поглощает естественные вариации базовой линии в строке таблицы и при этом разделяет строки. Результат — упорядоченный список строк сверху вниз.
Шаг два — разбиение колонок по X-промежуткам. Внутри каждой строки фрагменты сортируются слева направо. Где горизонтальный промежуток между соседними фрагментами превышает ~8 пт, мы вставляем границу колонки. 8 пт шире типичного межсловного промежутка (пробел — около 3 пт при 10-pt шрифте), но уже межколонного отступа, который используют дизайнеры таблиц. Соседние слова в одной колонке остаются в одной ячейке; соседние колонки разделяются.
Это весь алгоритм. Две эвристики, подобранные под то, как настоящие таблицы реально размечены. Никакого машинного обучения, никакого облачного API, никаких загрузок-и-ждать-наш-ИИ. Просто геометрия. Работает на настоящих таблицах по той же причине: настоящие таблицы и есть та геометрия, которую мы ждём.
Где спотыкается: «таблица», которая на самом деле многоколонная страница прозы (журнальная статья, конференционная статья в две колонки), будет разбита на колонки нашим X-детектором. Это алгоритм делает ровно то, что должен — есть широкие горизонтальные промежутки между двумя блоками текста. Если хочется получить прозу обратно, бери «Извлечь текст из PDF» — он сохраняет порядок чтения.
Альтернативы Big Software — и какая сделка у каждой
Есть три других варианта добычи таблиц из PDF, и у каждого свой налог.
Adobe Acrobat Pro ($19,99/мес или $239,88/год) — золотой стандарт. У него настоящий конвейер детекции таблиц, отшлифованный десятилетиями — детекция линий, OCR-фоллбэк для сканированных таблиц, распознавание шапок, обработка сносок. Для PDF без очевидной структуры таблицы (без рамок, объединённые ячейки, нерегулярная вёрстка) он лучше нас. Цена есть цена: вечная месячная подписка, конвертируешь ли ты 100 PDF в месяц или один. Большинство владельцев Acrobat используют его на 5% возможностей.
iLovePDF, SmallPDF, PDF24, ABBYY FineReader Online, Convertio — толпа «сначала загрузи». Берут PDF, шлют на сервер где-то, гоняют конверсию там, возвращают .xlsx. Качество конверсии как у нас в простых случаях; иногда лучше в сложных (некоторые OCR-ят сканированные таблицы; мы — нет). Сделка: твой PDF теперь на чужом сервере. Для PDF с публичными данными — пофиг. Для банковской выписки, зарплатной ведомости, договора со строчками — ты только что отправил их незнакомцу и веришь, что они удалят. Плюс лимиты (SmallPDF до 2 конверсий, Sejda — 3/час) и тариф Pro Plan на каждой странице.
«Скопируй и вставь из PDF в Excel». Попробуй на многоколонной таблице — увидишь, как колонки схлопываются в одну колонку ячеек. Copy-paste из PDF сохраняет текст, но выкидывает вёрстку — это ровно та задача, для которой построена наша детекция колонок. На однокомлоночном списке нормально. На чём-то более широком разваливается.
Питч Big Software всегда такой: конверсия «бесплатна!», но опыт закрыт. Бесплатный тариф — 2 файла, 10 страниц, с водяным знаком. Pro-тариф разблокирует остальное. Зарегистрируйся, чтобы убрать ограничение. Подпишись, чтобы убрать водяной знак. Мы намеренно выбираем спор с этой моделью. Браузер делает работу. У нас нет предельной стоимости — значит, и предельной цены для тебя. «Решение есть для всего» не значит «для всего есть платное решение».
Разбор примера: банковская выписка на 6 страниц
Ты сверяешь расходы за квартал. Банк шлёт месячную выписку PDF. Шесть страниц, три выписки в папке. У каждой шапка (страница 1 с информацией о счёте, сводка), три страницы транзакций в 5-колонной таблице (дата, описание, дебет, кредит, баланс) и последняя страница с мелким шрифтом.
Что происходит, когда бросаешь одну выписку в конвертер:
- Бросаешь
statement-2026-04.pdfв зону. Виджет показывает число страниц (6) и кнопку «Конвертировать». - Жмёшь «Конвертировать в Excel». Через ~2 секунды кнопка скачивания активна.
- Открываешь
statement-2026-04.xlsx. Шесть листов: «Page 1», «Page 2», ..., «Page 6». - Страница 1 — шапка счёта: имя, адрес, номер счёта, кластеризованные в грубые строки. Не очень полезно как таблица, но точно передаёт страницу.
- Страницы 2–4 — транзакции. В каждой строке 5 колонок: дата, описание, дебет, кредит, баланс. Шапка из PDF банка — первая строка каждого листа.
- Страницы 5–6 — итоги и мелкий шрифт. Бесполезны для сверки; игнорируешь.
Выделяешь страницы 2–4, копируешь строки, вставляешь в свою основную книгу. Пять секунд правки — пара ячеек дебета/кредита, где банковский PDF использовал странный пробел и наш детектор колонок разделил чуть иначе. Клик, клик, готово. Повтори для двух других выписок. Полное время — около 5 минут. Та же работа через Adobe Acrobat — примерно столько же по времени плюс подписка $19,99. Через SmallPDF — медленнее на загрузке плюс данные банка теперь у SmallPDF на сервере.
Что сохраняет, что не сохраняет
Честное ожидание избавляет от разочарования. Что переживает конверсию и что нет:
| Функция | Что происходит |
|---|---|
| Текст и числа в ячейках | Сохраняются точно, как читает PDF.js |
| Порядок строк | Сохраняется (сверху вниз каждой страницы) |
| Порядок колонок | Сохраняется (слева направо каждой строки) |
| Шапка | Становится первой строкой листа (без специального статуса «шапка») |
| Многостраничные таблицы | Один лист на страницу — таблица разбивается на листы, собирай заново в Excel |
| Объединённые ячейки | По возможности: значение в крайней левой ячейке |
| Рамки, цвета, шрифты | Убираются — только значения |
| Формулы | Неприменимо — PDF не несут формул, только посчитанные значения |
| Отсканированные таблицы | Не работает — OCR нет. PDF из картинок выходят пустыми. |
| Многоколонная вёрстка страницы (журнальные колонки) | Обе колонки оказываются рядом в таблице — обычно не то, что нужно |
| Картинки внутри ячеек | Убираются — см. «Извлечь картинки из PDF» |
Если граница колонок попала не туда на твоём конкретном PDF — скажем, конвертер слил две колонки, которые должны были быть раздельными, потому что промежуток оказался 6 пт вместо 8 пт — исправление в самом Excel, а не в инструменте. Выдели колонку, Data → Text to Columns → Fixed Width → перетащи границу в нужное место. 30 секунд. Альтернатива — встроить в наш виджет UI для ручного перетаскивания границ колонок — удвоила бы сложность инструмента ради 5% конверсий. Simplicity Pledge говорит: делай одну работу. Мы делаем.
Про отсканированные PDF и OCR
Самая частая жалоба «инструмент не сработал» на любом PDF-конвертере: я бросил скан, результат пустой. Объясняем почему и что делать.
Отсканированный PDF — это картинка страницы в PDF-обёртке. Внутри нет текста — каждая «буква» это набор пикселей. PDF.js при запросе на извлечение текста из скана не находит ни одного фрагмента и отдаёт нам ничего. Так что нашему детектору строк/колонок нечего кластеризовать, и .xlsx на выходе пустой. Это не баг, который мы можем починить в этом инструменте; это другой тип объекта на входе.
Что делать: сначала OCR. Optical Character Recognition превращает пиксели обратно в текстовые фрагменты — после этого получаешь «настоящий» PDF с извлекаемым текстом, и конвертер сработает. Варианты:
- Adobe Acrobat Pro имеет встроенный OCR («Инструменты → Распознать текст»). Прогони, сохрани, потом через нас.
- macOS Preview авто-OCR-ит PDF при открытии в недавних версиях macOS. Сохрани копию.
- Tesseract (open source, командная строка) — установи через Homebrew или apt, гоняй по PDF.
- Google Drive — загрузи, «Открыть в Google Docs», Drive OCR-ит. Замечание по приватности: PDF теперь в Google.
Мы, возможно, добавим OCR в браузере позже (tesseract.js работает в браузере, просто медленно), но это существенно другая операция, чем извлечение текста, и заслуживает отдельного инструмента.
Приватность — главная причина, по которой это в браузере
Причина, по которой конвертеры PDF в Excel в основном облачные, проста: вендору проще запустить конверсию на сервере, чем шипить быстрый парсер PDF в браузер каждого пользователя. Сделка с приватностью пользователя — «дай нам свой PDF, обещаем удалить» — это цена более простого инженерного выбора.
Microapp осознанно выбрал более сложный инженерный путь. PDF.js работает в браузере, быстро, на любом современном устройстве. SheetJS работает в браузере, быстро, на любом современном устройстве. Нет причины, по которой конверсия должна происходить на чужой машине — кроме того, что вендору чуть больше работы сделать иначе.
Мы сделали чуть больше работы. Результат: твоя банковская выписка, зарплатная ведомость, база клиентов, договор — что бы ты ни конвертировал — остаётся на ноутбуке. Страница Microapp загружается с нашего CDN; конверсия гоняется локально; .xlsx собирается локально и отдаётся как локальный blob. Ноль сетевого трафика во время конвертации. Проверь в DevTools. Это не маркетинговое обещание — это архитектура.
Похожие инструменты
Инструменты, которые естественно пары с конвертером PDF в Excel:
- Извлечь текст из PDF — вытаскивает непрерывную прозу из PDF (порядок чтения, не табличный). Правильный инструмент, когда PDF не табличный.
- Извлечь картинки из PDF — достаёт встроенные фотографии в оригинальном разрешении.
- Разделить PDF — разбить очень большой PDF на меньшие до конвертации (помогает за пределами 200 страниц).
- Объединить PDF — соединить несколько PDF до конвертации (полезно для пакетной обработки месячных выписок).
- Excel в PDF — обратное направление. Книгу в PDF.
- Подсчёт страниц PDF — быстрый чек длины до конвертации.
- Скрыть данные в PDF — закрыть чувствительные поля до отправки исходного PDF.
Как Microapp платит за свет: годовое членство — чистые страницы и ИИ по цене вычислений; не-Members получают те же инструменты с рекламой. В любом случае 10% от каждого заработанного доллара Microapp идут на благотворительность — сверху, с аудитом, публикуется ежеквартально. Конвертер PDF в Excel — один из ~115 микроаппов, построенных по одному стандарту. Премиум-качество для всех.
Частые вопросы
Как именно детектируется таблица?
Двухшаговая эвристика на текстовых фрагментах, которые даёт PDF.js. Шаг 1: кластеризовать фрагменты по Y-координате — фрагменты в пределах ~5 пт по вертикали считаются одной строкой. Шаг 2: внутри каждой строки сортировка слева направо и разбиение на отдельные колонки везде, где горизонтальный промежуток между соседними фрагментами превышает ~8 пт (шире пробелов между словами, но уже типичных межколонных полей). Это эвристика, не магия — работает хорошо на настоящих таблицах, хуже на тексте, который просто оказался в колонках.
Обрабатывает ли объединённые ячейки?
Нет. У PDF нет структурного понятия «объединённая ячейка» — есть визуально позиционированный текст на странице, и объединённая ячейка — это просто один текстовый фрагмент, который занимает положение двух колонок. Конвертер кладёт этот фрагмент в одну ячейку (крайнюю левую, с которой он пересекается). Если нужно сохранять объединённые ячейки, объединяй их вручную в Excel после конвертации — хотя по нашему опыту инструменты дальше по цепочке лучше работают с разъединёнными.
Что если в PDF несколько страниц?
Получишь один лист на страницу в итоговой книге с именами «Page 1», «Page 2» и так далее. Общий лимит страниц — 200 (выше, чем у извлечения текста, потому что кластер-и-запись тяжелее на страницу). Если PDF длиннее, сначала разбей нашим Split PDF и конвертируй куски отдельно.
Как это сравнивается с Adobe Acrobat или платным конвертером?
Adobe Acrobat (и ABBYY, Foxit и т. д.) шипят многоуровневые алгоритмы детекции таблиц, отшлифованные десятилетиями — детекция линий, OCR-фоллбэк для сканированных таблиц, распознавание шапок, обработка сносок. Они лучше на крайних случаях: таблицы без рамок, объединённые ячейки, сканы (которые мы не обрабатываем вообще — OCR нет). Для частого случая — PDF, который буквально выгружен из таблицы, или структурно табличный финансовый отчёт — наш инструмент закрывает 80% за $0 и без загрузки. Бери Adobe, когда нужны последние 20%.
Мой PDF правда не загружается?
Верно. PDF.js (библиотека, которую Firefox использует внутри для рендера PDF) работает в браузере. SheetJS (кодировщик .xlsx) тоже работает в браузере. Байты идут из файловой системы в память браузера и в скачивание .xlsx — на сервер ничего не уходит. Проверь вкладку Network во время конвертации: ноль исходящих запросов.
Почему мой прозаический PDF выглядит как одна колонка в Excel?
Потому что структурно так и есть. Абзацы непрерывного текста не имеют горизонтальных промежутков, достаточных, чтобы сработал разделитель колонок — слова разделены одиночными пробелами, заметно меньше нашего порога в 8 пт. Конвертер правильно опознаёт каждую строку как одну ячейку. Если хочется, чтобы каждая строка лежала в своей ячейке колонки A — это и есть рабочий результат; если хочется слова, разбитые по колонкам, то нужен «Извлечь текст из PDF», а потом Text-to-Columns в самом Excel.
А что с отсканированными PDF?
Не работает — как и у других наших PDF-инструментов. Сканы — это картинки текста, а не текст. Для них нужен OCR (Optical Character Recognition), это принципиально другая операция, и этот инструмент её не делает. Сначала прогони скан через OCR (Adobe Acrobat, macOS Preview или Tesseract), сохрани OCR-нутый PDF, потом гоняй через нас.
Какой максимальный размер?
100 МБ и 200 страниц. Шаг кластеризации и кодирования тяжёлый по памяти; берём ниже, чем у инструмента подсчёта страниц. Для очень больших PDF сначала разбей нашим Split PDF.