PDF в Excel

🔒 Everything happens in your browser. The PDF never uploads. Close the tab and it's gone.

Конвертер PDF в Excel читает текстовые фрагменты PDF и кластеризует их в сетку: строки — по Y-координате, колонки — по X-промежуткам. На выходе настоящая книга .xlsx с одним листом на страницу PDF — откроется в Excel, Google Sheets или Numbers. Честно про охват: это хорошо работает на PDF, которые УЖЕ являются таблицами (финансовые отчёты, выгрузки из табличных приложений, банковские выписки). Прозаические PDF схлопываются в одну колонку с текстом абзацев. Для сложной многоколонной вёрстки страниц или объединённых ячеек лучше подойдёт десктопный инструмент с ручным выделением областей. Полностью в браузере через PDF.js от Mozilla и SheetJS. Без загрузки, без сервера.

Built by Bob Article by Lace QA by Ben Shipped

Как использовать

  1. 1

    Брось или выбери PDF. До 100 МБ и 200 страниц.

  2. 2

    Прочитай жёлтую плашку — она говорит, на каких PDF это работает (таблицы) и на каких нет (проза, сканы, сложная вёрстка).

  3. 3

    Нажми «Конвертировать в Excel». Инструмент читает каждую страницу, кластеризует текстовые фрагменты в 2D-сетку и выдаёт один лист на страницу PDF.

  4. 4

    Скачай .xlsx (имя по исходнику — invoice.pdf → invoice.xlsx). Открой в Excel, Google Sheets, Numbers или LibreOffice Calc.

  5. 5

    Посмотри глазами на результат. Границы колонок — наилучшая догадка по горизонтальным промежуткам; если разделитель колонок попал не туда, поправь в табличном приложении через Text-to-Columns или редактируя ячейки напрямую.

Часто задаваемые вопросы

Ratings & Reviews

Rate this tool

Sign in to rate and review this tool.

Loading reviews…

Что делает конвертер PDF в Excel

PDF хранит текст как позиционированные фрагменты — каждое слово знает свою (x, y) координату на странице, но ничто в файле не знает, что такое «строка» или «колонка». Конвертер PDF в Excel смотрит на эти фрагменты, кластеризует их в строки по Y-координате, разбивает каждую строку на колонки везде, где есть широкий горизонтальный промежуток, и пишет результат в настоящую книгу .xlsx. Один лист на страницу PDF. Открывай в Excel, Google Sheets, Numbers или LibreOffice Calc. Без загрузки, без водяного знака, без регистрации.

Весь конвейер работает в браузере. PDF.js (открытая PDF-библиотека Mozilla — та же, которую внутри использует Firefox) читает PDF и выдаёт нам текстовые фрагменты с координатами. SheetJS кодирует результат в бинарный формат .xlsx. Обе библиотеки работают на твоём CPU, во вкладке. Открой DevTools, переключись на Network, жми «Конвертировать». Ноль исходящих запросов. Байты не покидают машину.

Одна честная оговорка сверху: это хорошо работает на PDF, которые уже являются таблицами — финансовые отчёты, выписки, выгрузки из табличных приложений, государственные дампы данных, приложения к заседаниям совета. Хуже работает на прозаических PDF (документ с колонкой текста схлопывается в одну колонку значений ячеек — правильно, но, вероятно, не то, что ты хотел) и не работает совсем на сканах (картинка текста, не текст — это задача OCR, см. ниже). Знать, что инструмент делает и не делает, заранее — экономит впустую потраченную минуту.

Когда PDF в Excel — правильный инструмент

Таблицы каждый день попадают в ловушку PDF. Квартальные отчёты, банковские выписки, налоговые формы, счета поставщиков, государственные выгрузки, внутренние MIS-выгрузки, академические работы с таблицами результатов — везде, где когда-то жила таблица, кто-то в итоге решил «поделиться PDF-версией». Числа прямо на странице; их просто нельзя сложить, отфильтровать, отсортировать или свести.

Реальные ситуации, где этот инструмент окупается:

  • Сверка банковских выписок. Банк шлёт месячные выписки PDF. Хочешь транзакции в таблице, чтобы их категоризовать, посчитать по торговцам и отдать бухгалтеру. На каждой странице выписки — таблица транзакций.
  • Счета от поставщиков. Поставщик шлёт 6 счетов в месяц PDF. Кредиторской задолженности нужны строки в книге, чтобы суммировать по месяцам и сверять с заказами.
  • Исследовательские данные. Государственное ведомство, академическая статья или отраслевой отчёт публикует ключевую таблицу внутри PDF. Хочешь её в Excel, чтобы построить график или соединить с собственными данными.
  • Отчёты продаж из CRM. У CRM есть кнопка «Скачать PDF», но нет «Скачать Excel» — или есть только на платном тарифе. В PDF та самая таблица, за которую иначе платил бы $20 за пользователя в месяц.
  • Списки классов и табели посещаемости. Учитель или администратор получает список PDF, нужно в таблице, чтобы вести учёт, оценивать или поделиться с подменяющим.

В каждом случае базовые данные — табличные, фиксированные строки и колонки, а PDF — просто обёртка, которую кто-то выбрал. Конвертер снимает обёртку и возвращает таблицу.

Как пользоваться конвертером PDF в Excel

Один экран. Зона броска сверху, короткая плашка про то, что работает и что нет, кнопка конвертации снизу.

  1. Брось или выбери PDF. До 100 МБ и 200 страниц.
  2. Прочитай жёлтую плашку — она говорит, на каких PDF это работает (таблицы) и на каких нет (проза, сканы, сложная вёрстка).
  3. Нажми «Конвертировать в Excel». Инструмент читает каждую страницу, кластеризует текстовые фрагменты в 2D-сетку и выдаёт один лист на страницу PDF.
  4. Скачай .xlsx (имя по исходному PDF — invoice.pdfinvoice.xlsx). Открой в Excel, Google Sheets, Numbers или LibreOffice Calc.
  5. Посмотри глазами на результат. Границы колонок — наилучшая догадка по горизонтальным промежуткам; если разделитель колонок попал не туда, поправь в табличном приложении через Text-to-Columns или редактируя ячейки напрямую.

Всё. Без «зарегистрируйся, чтобы разблокировать конверсию больше 5 страниц». Без 10-мегабайтного лимита бесплатного тарифа. Без водяного знака сквозь твои данные.

Как именно работает детекция строк и колонок

Это интересная часть, и её стоит понять, потому что она объясняет и победы, и сценарии отказа.

PDF.js даёт нам список текстовых фрагментов на страницу. У каждого фрагмента есть: строка, которую он содержит, x/y-позиция на странице (в пунктах — 72 на дюйм) и ширина. Типичная страница — сотни-тысячи фрагментов. Наша задача — превратить это в сетку.

Шаг один — кластеризация строк по Y. Фрагменты, чьи Y-координаты в пределах ~5 пт, считаются одной строкой. 5 пт — примерно полстроки основного текста, так что это поглощает естественные вариации базовой линии в строке таблицы и при этом разделяет строки. Результат — упорядоченный список строк сверху вниз.

Шаг два — разбиение колонок по X-промежуткам. Внутри каждой строки фрагменты сортируются слева направо. Где горизонтальный промежуток между соседними фрагментами превышает ~8 пт, мы вставляем границу колонки. 8 пт шире типичного межсловного промежутка (пробел — около 3 пт при 10-pt шрифте), но уже межколонного отступа, который используют дизайнеры таблиц. Соседние слова в одной колонке остаются в одной ячейке; соседние колонки разделяются.

Это весь алгоритм. Две эвристики, подобранные под то, как настоящие таблицы реально размечены. Никакого машинного обучения, никакого облачного API, никаких загрузок-и-ждать-наш-ИИ. Просто геометрия. Работает на настоящих таблицах по той же причине: настоящие таблицы и есть та геометрия, которую мы ждём.

Где спотыкается: «таблица», которая на самом деле многоколонная страница прозы (журнальная статья, конференционная статья в две колонки), будет разбита на колонки нашим X-детектором. Это алгоритм делает ровно то, что должен — есть широкие горизонтальные промежутки между двумя блоками текста. Если хочется получить прозу обратно, бери «Извлечь текст из PDF» — он сохраняет порядок чтения.

Альтернативы Big Software — и какая сделка у каждой

Есть три других варианта добычи таблиц из PDF, и у каждого свой налог.

Adobe Acrobat Pro ($19,99/мес или $239,88/год) — золотой стандарт. У него настоящий конвейер детекции таблиц, отшлифованный десятилетиями — детекция линий, OCR-фоллбэк для сканированных таблиц, распознавание шапок, обработка сносок. Для PDF без очевидной структуры таблицы (без рамок, объединённые ячейки, нерегулярная вёрстка) он лучше нас. Цена есть цена: вечная месячная подписка, конвертируешь ли ты 100 PDF в месяц или один. Большинство владельцев Acrobat используют его на 5% возможностей.

iLovePDF, SmallPDF, PDF24, ABBYY FineReader Online, Convertio — толпа «сначала загрузи». Берут PDF, шлют на сервер где-то, гоняют конверсию там, возвращают .xlsx. Качество конверсии как у нас в простых случаях; иногда лучше в сложных (некоторые OCR-ят сканированные таблицы; мы — нет). Сделка: твой PDF теперь на чужом сервере. Для PDF с публичными данными — пофиг. Для банковской выписки, зарплатной ведомости, договора со строчками — ты только что отправил их незнакомцу и веришь, что они удалят. Плюс лимиты (SmallPDF до 2 конверсий, Sejda — 3/час) и тариф Pro Plan на каждой странице.

«Скопируй и вставь из PDF в Excel». Попробуй на многоколонной таблице — увидишь, как колонки схлопываются в одну колонку ячеек. Copy-paste из PDF сохраняет текст, но выкидывает вёрстку — это ровно та задача, для которой построена наша детекция колонок. На однокомлоночном списке нормально. На чём-то более широком разваливается.

Питч Big Software всегда такой: конверсия «бесплатна!», но опыт закрыт. Бесплатный тариф — 2 файла, 10 страниц, с водяным знаком. Pro-тариф разблокирует остальное. Зарегистрируйся, чтобы убрать ограничение. Подпишись, чтобы убрать водяной знак. Мы намеренно выбираем спор с этой моделью. Браузер делает работу. У нас нет предельной стоимости — значит, и предельной цены для тебя. «Решение есть для всего» не значит «для всего есть платное решение».

Разбор примера: банковская выписка на 6 страниц

Ты сверяешь расходы за квартал. Банк шлёт месячную выписку PDF. Шесть страниц, три выписки в папке. У каждой шапка (страница 1 с информацией о счёте, сводка), три страницы транзакций в 5-колонной таблице (дата, описание, дебет, кредит, баланс) и последняя страница с мелким шрифтом.

Что происходит, когда бросаешь одну выписку в конвертер:

  1. Бросаешь statement-2026-04.pdf в зону. Виджет показывает число страниц (6) и кнопку «Конвертировать».
  2. Жмёшь «Конвертировать в Excel». Через ~2 секунды кнопка скачивания активна.
  3. Открываешь statement-2026-04.xlsx. Шесть листов: «Page 1», «Page 2», ..., «Page 6».
  4. Страница 1 — шапка счёта: имя, адрес, номер счёта, кластеризованные в грубые строки. Не очень полезно как таблица, но точно передаёт страницу.
  5. Страницы 2–4 — транзакции. В каждой строке 5 колонок: дата, описание, дебет, кредит, баланс. Шапка из PDF банка — первая строка каждого листа.
  6. Страницы 5–6 — итоги и мелкий шрифт. Бесполезны для сверки; игнорируешь.

Выделяешь страницы 2–4, копируешь строки, вставляешь в свою основную книгу. Пять секунд правки — пара ячеек дебета/кредита, где банковский PDF использовал странный пробел и наш детектор колонок разделил чуть иначе. Клик, клик, готово. Повтори для двух других выписок. Полное время — около 5 минут. Та же работа через Adobe Acrobat — примерно столько же по времени плюс подписка $19,99. Через SmallPDF — медленнее на загрузке плюс данные банка теперь у SmallPDF на сервере.

Что сохраняет, что не сохраняет

Честное ожидание избавляет от разочарования. Что переживает конверсию и что нет:

ФункцияЧто происходит
Текст и числа в ячейкахСохраняются точно, как читает PDF.js
Порядок строкСохраняется (сверху вниз каждой страницы)
Порядок колонокСохраняется (слева направо каждой строки)
ШапкаСтановится первой строкой листа (без специального статуса «шапка»)
Многостраничные таблицыОдин лист на страницу — таблица разбивается на листы, собирай заново в Excel
Объединённые ячейкиПо возможности: значение в крайней левой ячейке
Рамки, цвета, шрифтыУбираются — только значения
ФормулыНеприменимо — PDF не несут формул, только посчитанные значения
Отсканированные таблицыНе работает — OCR нет. PDF из картинок выходят пустыми.
Многоколонная вёрстка страницы (журнальные колонки)Обе колонки оказываются рядом в таблице — обычно не то, что нужно
Картинки внутри ячеекУбираются — см. «Извлечь картинки из PDF»

Если граница колонок попала не туда на твоём конкретном PDF — скажем, конвертер слил две колонки, которые должны были быть раздельными, потому что промежуток оказался 6 пт вместо 8 пт — исправление в самом Excel, а не в инструменте. Выдели колонку, Data → Text to Columns → Fixed Width → перетащи границу в нужное место. 30 секунд. Альтернатива — встроить в наш виджет UI для ручного перетаскивания границ колонок — удвоила бы сложность инструмента ради 5% конверсий. Simplicity Pledge говорит: делай одну работу. Мы делаем.

Про отсканированные PDF и OCR

Самая частая жалоба «инструмент не сработал» на любом PDF-конвертере: я бросил скан, результат пустой. Объясняем почему и что делать.

Отсканированный PDF — это картинка страницы в PDF-обёртке. Внутри нет текста — каждая «буква» это набор пикселей. PDF.js при запросе на извлечение текста из скана не находит ни одного фрагмента и отдаёт нам ничего. Так что нашему детектору строк/колонок нечего кластеризовать, и .xlsx на выходе пустой. Это не баг, который мы можем починить в этом инструменте; это другой тип объекта на входе.

Что делать: сначала OCR. Optical Character Recognition превращает пиксели обратно в текстовые фрагменты — после этого получаешь «настоящий» PDF с извлекаемым текстом, и конвертер сработает. Варианты:

  • Adobe Acrobat Pro имеет встроенный OCR («Инструменты → Распознать текст»). Прогони, сохрани, потом через нас.
  • macOS Preview авто-OCR-ит PDF при открытии в недавних версиях macOS. Сохрани копию.
  • Tesseract (open source, командная строка) — установи через Homebrew или apt, гоняй по PDF.
  • Google Drive — загрузи, «Открыть в Google Docs», Drive OCR-ит. Замечание по приватности: PDF теперь в Google.

Мы, возможно, добавим OCR в браузере позже (tesseract.js работает в браузере, просто медленно), но это существенно другая операция, чем извлечение текста, и заслуживает отдельного инструмента.

Приватность — главная причина, по которой это в браузере

Причина, по которой конвертеры PDF в Excel в основном облачные, проста: вендору проще запустить конверсию на сервере, чем шипить быстрый парсер PDF в браузер каждого пользователя. Сделка с приватностью пользователя — «дай нам свой PDF, обещаем удалить» — это цена более простого инженерного выбора.

Microapp осознанно выбрал более сложный инженерный путь. PDF.js работает в браузере, быстро, на любом современном устройстве. SheetJS работает в браузере, быстро, на любом современном устройстве. Нет причины, по которой конверсия должна происходить на чужой машине — кроме того, что вендору чуть больше работы сделать иначе.

Мы сделали чуть больше работы. Результат: твоя банковская выписка, зарплатная ведомость, база клиентов, договор — что бы ты ни конвертировал — остаётся на ноутбуке. Страница Microapp загружается с нашего CDN; конверсия гоняется локально; .xlsx собирается локально и отдаётся как локальный blob. Ноль сетевого трафика во время конвертации. Проверь в DevTools. Это не маркетинговое обещание — это архитектура.

Похожие инструменты

Инструменты, которые естественно пары с конвертером PDF в Excel:

  • Извлечь текст из PDF — вытаскивает непрерывную прозу из PDF (порядок чтения, не табличный). Правильный инструмент, когда PDF не табличный.
  • Извлечь картинки из PDF — достаёт встроенные фотографии в оригинальном разрешении.
  • Разделить PDF — разбить очень большой PDF на меньшие до конвертации (помогает за пределами 200 страниц).
  • Объединить PDF — соединить несколько PDF до конвертации (полезно для пакетной обработки месячных выписок).
  • Excel в PDF — обратное направление. Книгу в PDF.
  • Подсчёт страниц PDF — быстрый чек длины до конвертации.
  • Скрыть данные в PDF — закрыть чувствительные поля до отправки исходного PDF.

Как Microapp платит за свет: годовое членство — чистые страницы и ИИ по цене вычислений; не-Members получают те же инструменты с рекламой. В любом случае 10% от каждого заработанного доллара Microapp идут на благотворительность — сверху, с аудитом, публикуется ежеквартально. Конвертер PDF в Excel — один из ~115 микроаппов, построенных по одному стандарту. Премиум-качество для всех.

Частые вопросы

Как именно детектируется таблица?

Двухшаговая эвристика на текстовых фрагментах, которые даёт PDF.js. Шаг 1: кластеризовать фрагменты по Y-координате — фрагменты в пределах ~5 пт по вертикали считаются одной строкой. Шаг 2: внутри каждой строки сортировка слева направо и разбиение на отдельные колонки везде, где горизонтальный промежуток между соседними фрагментами превышает ~8 пт (шире пробелов между словами, но уже типичных межколонных полей). Это эвристика, не магия — работает хорошо на настоящих таблицах, хуже на тексте, который просто оказался в колонках.

Обрабатывает ли объединённые ячейки?

Нет. У PDF нет структурного понятия «объединённая ячейка» — есть визуально позиционированный текст на странице, и объединённая ячейка — это просто один текстовый фрагмент, который занимает положение двух колонок. Конвертер кладёт этот фрагмент в одну ячейку (крайнюю левую, с которой он пересекается). Если нужно сохранять объединённые ячейки, объединяй их вручную в Excel после конвертации — хотя по нашему опыту инструменты дальше по цепочке лучше работают с разъединёнными.

Что если в PDF несколько страниц?

Получишь один лист на страницу в итоговой книге с именами «Page 1», «Page 2» и так далее. Общий лимит страниц — 200 (выше, чем у извлечения текста, потому что кластер-и-запись тяжелее на страницу). Если PDF длиннее, сначала разбей нашим Split PDF и конвертируй куски отдельно.

Как это сравнивается с Adobe Acrobat или платным конвертером?

Adobe Acrobat (и ABBYY, Foxit и т. д.) шипят многоуровневые алгоритмы детекции таблиц, отшлифованные десятилетиями — детекция линий, OCR-фоллбэк для сканированных таблиц, распознавание шапок, обработка сносок. Они лучше на крайних случаях: таблицы без рамок, объединённые ячейки, сканы (которые мы не обрабатываем вообще — OCR нет). Для частого случая — PDF, который буквально выгружен из таблицы, или структурно табличный финансовый отчёт — наш инструмент закрывает 80% за $0 и без загрузки. Бери Adobe, когда нужны последние 20%.

Мой PDF правда не загружается?

Верно. PDF.js (библиотека, которую Firefox использует внутри для рендера PDF) работает в браузере. SheetJS (кодировщик .xlsx) тоже работает в браузере. Байты идут из файловой системы в память браузера и в скачивание .xlsx — на сервер ничего не уходит. Проверь вкладку Network во время конвертации: ноль исходящих запросов.

Почему мой прозаический PDF выглядит как одна колонка в Excel?

Потому что структурно так и есть. Абзацы непрерывного текста не имеют горизонтальных промежутков, достаточных, чтобы сработал разделитель колонок — слова разделены одиночными пробелами, заметно меньше нашего порога в 8 пт. Конвертер правильно опознаёт каждую строку как одну ячейку. Если хочется, чтобы каждая строка лежала в своей ячейке колонки A — это и есть рабочий результат; если хочется слова, разбитые по колонкам, то нужен «Извлечь текст из PDF», а потом Text-to-Columns в самом Excel.

А что с отсканированными PDF?

Не работает — как и у других наших PDF-инструментов. Сканы — это картинки текста, а не текст. Для них нужен OCR (Optical Character Recognition), это принципиально другая операция, и этот инструмент её не делает. Сначала прогони скан через OCR (Adobe Acrobat, macOS Preview или Tesseract), сохрани OCR-нутый PDF, потом гоняй через нас.

Какой максимальный размер?

100 МБ и 200 страниц. Шаг кластеризации и кодирования тяжёлый по памяти; берём ниже, чем у инструмента подсчёта страниц. Для очень больших PDF сначала разбей нашим Split PDF.