PDF в Excel

Конвертер PDF в Excel читает текстовые фрагменты PDF и кластеризует их в сетку: строки — по Y-координате, колонки — по X-промежуткам. На выходе настоящая книга .xlsx с одним листом на страницу PDF — откроется в Excel, Google Sheets или Numbers. Честно про охват: это хорошо работает на PDF, которые УЖЕ являются таблицами (финансовые отчёты, выгрузки из табличных приложений, банковские выписки). Прозаические PDF схлопываются в одну колонку с текстом абзацев. Для сложной многоколонной вёрстки страниц или объединённых ячеек лучше подойдёт десктопный инструмент с ручным выделением областей. Полностью в браузере через PDF.js от Mozilla и SheetJS. Без загрузки, без сервера.

Built by Bob Article by Lace QA by Ben Shipped May 13, 2026

Как использовать

1
Брось или выбери PDF. До 100 МБ и 200 страниц.
2
Прочитай жёлтую плашку — она говорит, на каких PDF это работает (таблицы) и на каких нет (проза, сканы, сложная вёрстка).
3
Нажми «Конвертировать в Excel». Инструмент читает каждую страницу, кластеризует текстовые фрагменты в 2D-сетку и выдаёт один лист на страницу PDF.
4
Скачай .xlsx (имя по исходнику — invoice.pdf → invoice.xlsx). Открой в Excel, Google Sheets, Numbers или LibreOffice Calc.
5
Посмотри глазами на результат. Границы колонок — наилучшая догадка по горизонтальным промежуткам; если разделитель колонок попал не туда, поправь в табличном приложении через Text-to-Columns или редактируя ячейки напрямую.

📝 Extract Text from PDF 🖼️ Extract Images from PDF ✂️ Split PDF 📎 PDF Merger

Часто задаваемые вопросы

Как именно детектируется таблица?

Двухшаговая эвристика на текстовых фрагментах, которые даёт PDF.js. Шаг 1: кластеризовать фрагменты по Y-координате — фрагменты в пределах ~5 пт по вертикали считаются одной строкой. Шаг 2: внутри каждой строки сортировка слева направо и разбиение на отдельные колонки везде, где горизонтальный промежуток между соседними фрагментами превышает ~8 пт (шире пробелов между словами, но уже типичных межколонных полей). Это эвристика, не магия — работает хорошо на настоящих таблицах, хуже на тексте, который просто оказался в колонках.

Обрабатывает ли объединённые ячейки?

Нет. У PDF нет структурного понятия «объединённая ячейка» — есть визуально позиционированный текст на странице, и объединённая ячейка — это просто один текстовый фрагмент, который занимает положение двух колонок. Конвертер кладёт этот фрагмент в одну ячейку (крайнюю левую, с которой он пересекается). Если нужно сохранять объединённые ячейки, объединяй их вручную в Excel после конвертации — хотя по нашему опыту инструменты дальше по цепочке лучше работают с разъединёнными.

Что если в PDF несколько страниц?

Получишь один лист на страницу в итоговой книге с именами «Page 1», «Page 2» и так далее. Общий лимит страниц — 200 (выше, чем у извлечения текста, потому что кластер-и-запись тяжелее на страницу). Если PDF длиннее, сначала разбей нашим Split PDF и конвертируй куски отдельно.

Как это сравнивается с Adobe Acrobat или платным конвертером?

Adobe Acrobat (и ABBYY, Foxit и т. д.) шипят многоуровневые алгоритмы детекции таблиц, отшлифованные десятилетиями — детекция линий, OCR-фоллбэк для сканированных таблиц, распознавание шапок, обработка сносок. Они лучше на крайних случаях: таблицы без рамок, объединённые ячейки, сканы (которые мы не обрабатываем вообще — OCR нет). Для частого случая — PDF, который буквально выгружен из таблицы, или структурно табличный финансовый отчёт — наш инструмент закрывает 80% за $0 и без загрузки. Бери Adobe, когда нужны последние 20%.

Мой PDF правда не загружается?

Верно. PDF.js (библиотека, которую Firefox использует внутри для рендера PDF) работает в браузере. SheetJS (кодировщик .xlsx) тоже работает в браузере. Байты идут из файловой системы в память браузера и в скачивание .xlsx — на сервер ничего не уходит. Проверь вкладку Network во время конвертации: ноль исходящих запросов.

Почему мой прозаический PDF выглядит как одна колонка в Excel?

Потому что структурно так и есть. Абзацы непрерывного текста не имеют горизонтальных промежутков, достаточных, чтобы сработал разделитель колонок — слова разделены одиночными пробелами, заметно меньше нашего порога в 8 пт. Конвертер правильно опознаёт каждую строку как одну ячейку. Если хочется, чтобы каждая строка лежала в своей ячейке колонки A — это и есть рабочий результат; если хочется слова, разбитые по колонкам, то нужен «Извлечь текст из PDF», а потом Text-to-Columns в самом Excel.

А что с отсканированными PDF?

Не работает — как и у других наших PDF-инструментов. Сканы — это картинки текста, а не текст. Для них нужен OCR (Optical Character Recognition), это принципиально другая операция, и этот инструмент её не делает. Сначала прогони скан через OCR (Adobe Acrobat, macOS Preview или Tesseract), сохрани OCR-нутый PDF, потом гоняй через нас.

Какой максимальный размер?

100 МБ и 200 страниц. Шаг кластеризации и кодирования тяжёлый по памяти; берём ниже, чем у инструмента подсчёта страниц. Для очень больших PDF сначала разбей.

Ratings & Reviews

Rate this tool

Loading reviews…

Что делает конвертер PDF в Excel

PDF хранит текст как позиционированные фрагменты — каждое слово знает свою (x, y) координату на странице, но ничто в файле не знает, что такое «строка» или «колонка». Конвертер PDF в Excel смотрит на эти фрагменты, кластеризует их в строки по Y-координате, разбивает каждую строку на колонки везде, где есть широкий горизонтальный промежуток, и пишет результат в настоящую книгу .xlsx. Один лист на страницу PDF. Открывай в Excel, Google Sheets, Numbers или LibreOffice Calc. Без загрузки, без водяного знака, без регистрации.

Весь конвейер работает в браузере. PDF.js (открытая PDF-библиотека Mozilla — та же, которую внутри использует Firefox) читает PDF и выдаёт нам текстовые фрагменты с координатами. SheetJS кодирует результат в бинарный формат .xlsx. Обе библиотеки работают на твоём CPU, во вкладке. Открой DevTools, переключись на Network, жми «Конвертировать». Ноль исходящих запросов. Байты не покидают машину.

Одна честная оговорка сверху: это хорошо работает на PDF, которые уже являются таблицами — финансовые отчёты, выписки, выгрузки из табличных приложений, государственные дампы данных, приложения к заседаниям совета. Хуже работает на прозаических PDF (документ с колонкой текста схлопывается в одну колонку значений ячеек — правильно, но, вероятно, не то, что ты хотел) и не работает совсем на сканах (картинка текста, не текст — это задача OCR, см. ниже). Знать, что инструмент делает и не делает, заранее — экономит впустую потраченную минуту.

Когда PDF в Excel — правильный инструмент

Таблицы каждый день попадают в ловушку PDF. Квартальные отчёты, банковские выписки, налоговые формы, счета поставщиков, государственные выгрузки, внутренние MIS-выгрузки, академические работы с таблицами результатов — везде, где когда-то жила таблица, кто-то в итоге решил «поделиться PDF-версией». Числа прямо на странице; их просто нельзя сложить, отфильтровать, отсортировать или свести.

Реальные ситуации, где этот инструмент окупается:

Сверка банковских выписок. Банк шлёт месячные выписки PDF. Хочешь транзакции в таблице, чтобы их категоризовать, посчитать по торговцам и отдать бухгалтеру. На каждой странице выписки — таблица транзакций.
Счета от поставщиков. Поставщик шлёт 6 счетов в месяц PDF. Кредиторской задолженности нужны строки в книге, чтобы суммировать по месяцам и сверять с заказами.
Исследовательские данные. Государственное ведомство, академическая статья или отраслевой отчёт публикует ключевую таблицу внутри PDF. Хочешь её в Excel, чтобы построить график или соединить с собственными данными.
Отчёты продаж из CRM. У CRM есть кнопка «Скачать PDF», но нет «Скачать Excel» — или есть только на платном тарифе. В PDF та самая таблица, за которую иначе платил бы $20 за пользователя в месяц.
Списки классов и табели посещаемости. Учитель или администратор получает список PDF, нужно в таблице, чтобы вести учёт, оценивать или поделиться с подменяющим.

В каждом случае базовые данные — табличные, фиксированные строки и колонки, а PDF — просто обёртка, которую кто-то выбрал. Конвертер снимает обёртку и возвращает таблицу.

Как пользоваться конвертером PDF в Excel

Один экран. Зона броска сверху, короткая плашка про то, что работает и что нет, кнопка конвертации снизу.

Брось или выбери PDF. До 100 МБ и 200 страниц.
Прочитай жёлтую плашку — она говорит, на каких PDF это работает (таблицы) и на каких нет (проза, сканы, сложная вёрстка).
Нажми «Конвертировать в Excel». Инструмент читает каждую страницу, кластеризует текстовые фрагменты в 2D-сетку и выдаёт один лист на страницу PDF.
Скачай .xlsx (имя по исходному PDF — invoice.pdf → invoice.xlsx). Открой в Excel, Google Sheets, Numbers или LibreOffice Calc.
Посмотри глазами на результат. Границы колонок — наилучшая догадка по горизонтальным промежуткам; если разделитель колонок попал не туда, поправь в табличном приложении через Text-to-Columns или редактируя ячейки напрямую.

Всё. Без «зарегистрируйся, чтобы разблокировать конверсию больше 5 страниц». Без 10-мегабайтного лимита бесплатного тарифа. Без водяного знака сквозь твои данные.

Как именно работает детекция строк и колонок

Это интересная часть, и её стоит понять, потому что она объясняет и победы, и сценарии отказа.

PDF.js даёт нам список текстовых фрагментов на страницу. У каждого фрагмента есть: строка, которую он содержит, x/y-позиция на странице (в пунктах — 72 на дюйм) и ширина. Типичная страница — сотни-тысячи фрагментов. Наша задача — превратить это в сетку.

Шаг один — кластеризация строк по Y. Фрагменты, чьи Y-координаты в пределах ~5 пт, считаются одной строкой. 5 пт — примерно полстроки основного текста, так что это поглощает естественные вариации базовой линии в строке таблицы и при этом разделяет строки. Результат — упорядоченный список строк сверху вниз.

Шаг два — разбиение колонок по X-промежуткам. Внутри каждой строки фрагменты сортируются слева направо. Где горизонтальный промежуток между соседними фрагментами превышает ~8 пт, мы вставляем границу колонки. 8 пт шире типичного межсловного промежутка (пробел — около 3 пт при 10-pt шрифте), но уже межколонного отступа, который используют дизайнеры таблиц. Соседние слова в одной колонке остаются в одной ячейке; соседние колонки разделяются.

Это весь алгоритм. Две эвристики, подобранные под то, как настоящие таблицы реально размечены. Никакого машинного обучения, никакого облачного API, никаких загрузок-и-ждать-наш-ИИ. Просто геометрия. Работает на настоящих таблицах по той же причине: настоящие таблицы и есть та геометрия, которую мы ждём.

Где спотыкается: «таблица», которая на самом деле многоколонная страница прозы (журнальная статья, конференционная статья в две колонки), будет разбита на колонки нашим X-детектором. Это алгоритм делает ровно то, что должен — есть широкие горизонтальные промежутки между двумя блоками текста. Если хочется получить прозу обратно, бери «Извлечь текст из PDF» — он сохраняет порядок чтения.

Альтернативы Big Software — и какая сделка у каждой

Есть три других варианта добычи таблиц из PDF, и у каждого свой налог.

Adobe Acrobat Pro ($19,99/мес или $239,88/год) — золотой стандарт. У него настоящий конвейер детекции таблиц, отшлифованный десятилетиями — детекция линий, OCR-фоллбэк для сканированных таблиц, распознавание шапок, обработка сносок. Для PDF без очевидной структуры таблицы (без рамок, объединённые ячейки, нерегулярная вёрстка) он лучше нас. Цена есть цена: вечная месячная подписка, конвертируешь ли ты 100 PDF в месяц или один. Большинство владельцев Acrobat используют его на 5% возможностей.

iLovePDF, SmallPDF, PDF24, ABBYY FineReader Online, Convertio — толпа «сначала загрузи». Берут PDF, шлют на сервер где-то, гоняют конверсию там, возвращают .xlsx. Качество конверсии как у нас в простых случаях; иногда лучше в сложных (некоторые OCR-ят сканированные таблицы; мы — нет). Сделка: твой PDF теперь на чужом сервере. Для PDF с публичными данными — пофиг. Для банковской выписки, зарплатной ведомости, договора со строчками — ты только что отправил их незнакомцу и веришь, что они удалят. Плюс лимиты (SmallPDF до 2 конверсий, Sejda — 3/час) и тариф Pro Plan на каждой странице.

«Скопируй и вставь из PDF в Excel». Попробуй на многоколонной таблице — увидишь, как колонки схлопываются в одну колонку ячеек. Copy-paste из PDF сохраняет текст, но выкидывает вёрстку — это ровно та задача, для которой построена наша детекция колонок. На однокомлоночном списке нормально. На чём-то более широком разваливается.

Питч Big Software всегда такой: конверсия «бесплатна!», но опыт закрыт. Бесплатный тариф — 2 файла, 10 страниц, с водяным знаком. Pro-тариф разблокирует остальное. Зарегистрируйся, чтобы убрать ограничение. Подпишись, чтобы убрать водяной знак. Мы намеренно выбираем спор с этой моделью. Браузер делает работу. У нас нет предельной стоимости — значит, и предельной цены для тебя. «Решение есть для всего» не значит «для всего есть платное решение».

Разбор примера: банковская выписка на 6 страниц

Ты сверяешь расходы за квартал. Банк шлёт месячную выписку PDF. Шесть страниц, три выписки в папке. У каждой шапка (страница 1 с информацией о счёте, сводка), три страницы транзакций в 5-колонной таблице (дата, описание, дебет, кредит, баланс) и последняя страница с мелким шрифтом.

Что происходит, когда бросаешь одну выписку в конвертер:

Бросаешь statement-2026-04.pdf в зону. Виджет показывает число страниц (6) и кнопку «Конвертировать».
Жмёшь «Конвертировать в Excel». Через ~2 секунды кнопка скачивания активна.
Открываешь statement-2026-04.xlsx. Шесть листов: «Page 1», «Page 2», ..., «Page 6».
Страница 1 — шапка счёта: имя, адрес, номер счёта, кластеризованные в грубые строки. Не очень полезно как таблица, но точно передаёт страницу.
Страницы 2–4 — транзакции. В каждой строке 5 колонок: дата, описание, дебет, кредит, баланс. Шапка из PDF банка — первая строка каждого листа.
Страницы 5–6 — итоги и мелкий шрифт. Бесполезны для сверки; игнорируешь.

Выделяешь страницы 2–4, копируешь строки, вставляешь в свою основную книгу. Пять секунд правки — пара ячеек дебета/кредита, где банковский PDF использовал странный пробел и наш детектор колонок разделил чуть иначе. Клик, клик, готово. Повтори для двух других выписок. Полное время — около 5 минут. Та же работа через Adobe Acrobat — примерно столько же по времени плюс подписка $19,99. Через SmallPDF — медленнее на загрузке плюс данные банка теперь у SmallPDF на сервере.

Что сохраняет, что не сохраняет

Честное ожидание избавляет от разочарования. Что переживает конверсию и что нет:

Функция	Что происходит
Текст и числа в ячейках	Сохраняются точно, как читает PDF.js
Порядок строк	Сохраняется (сверху вниз каждой страницы)
Порядок колонок	Сохраняется (слева направо каждой строки)
Шапка	Становится первой строкой листа (без специального статуса «шапка»)
Многостраничные таблицы	Один лист на страницу — таблица разбивается на листы, собирай заново в Excel
Объединённые ячейки	По возможности: значение в крайней левой ячейке
Рамки, цвета, шрифты	Убираются — только значения
Формулы	Неприменимо — PDF не несут формул, только посчитанные значения
Отсканированные таблицы	Не работает — OCR нет. PDF из картинок выходят пустыми.
Многоколонная вёрстка страницы (журнальные колонки)	Обе колонки оказываются рядом в таблице — обычно не то, что нужно
Картинки внутри ячеек	Убираются — см. «Извлечь картинки из PDF»

Если граница колонок попала не туда на твоём конкретном PDF — скажем, конвертер слил две колонки, которые должны были быть раздельными, потому что промежуток оказался 6 пт вместо 8 пт — исправление в самом Excel, а не в инструменте. Выдели колонку, Data → Text to Columns → Fixed Width → перетащи границу в нужное место. 30 секунд. Альтернатива — встроить в наш виджет UI для ручного перетаскивания границ колонок — удвоила бы сложность инструмента ради 5% конверсий. Simplicity Pledge говорит: делай одну работу. Мы делаем.

Про отсканированные PDF и OCR

Самая частая жалоба «инструмент не сработал» на любом PDF-конвертере: я бросил скан, результат пустой. Объясняем почему и что делать.

Отсканированный PDF — это картинка страницы в PDF-обёртке. Внутри нет текста — каждая «буква» это набор пикселей. PDF.js при запросе на извлечение текста из скана не находит ни одного фрагмента и отдаёт нам ничего. Так что нашему детектору строк/колонок нечего кластеризовать, и .xlsx на выходе пустой. Это не баг, который мы можем починить в этом инструменте; это другой тип объекта на входе.

Что делать: сначала OCR. Optical Character Recognition превращает пиксели обратно в текстовые фрагменты — после этого получаешь «настоящий» PDF с извлекаемым текстом, и конвертер сработает. Варианты:

Adobe Acrobat Pro имеет встроенный OCR («Инструменты → Распознать текст»). Прогони, сохрани, потом через нас.
macOS Preview авто-OCR-ит PDF при открытии в недавних версиях macOS. Сохрани копию.
Tesseract (open source, командная строка) — установи через Homebrew или apt, гоняй по PDF.
Google Drive — загрузи, «Открыть в Google Docs», Drive OCR-ит. Замечание по приватности: PDF теперь в Google.

Мы, возможно, добавим OCR в браузере позже (tesseract.js работает в браузере, просто медленно), но это существенно другая операция, чем извлечение текста, и заслуживает отдельного инструмента.

Приватность — главная причина, по которой это в браузере

Причина, по которой конвертеры PDF в Excel в основном облачные, проста: вендору проще запустить конверсию на сервере, чем шипить быстрый парсер PDF в браузер каждого пользователя. Сделка с приватностью пользователя — «дай нам свой PDF, обещаем удалить» — это цена более простого инженерного выбора.

Microapp осознанно выбрал более сложный инженерный путь. PDF.js работает в браузере, быстро, на любом современном устройстве. SheetJS работает в браузере, быстро, на любом современном устройстве. Нет причины, по которой конверсия должна происходить на чужой машине — кроме того, что вендору чуть больше работы сделать иначе.

Мы сделали чуть больше работы. Результат: твоя банковская выписка, зарплатная ведомость, база клиентов, договор — что бы ты ни конвертировал — остаётся на ноутбуке. Страница Microapp загружается с нашего CDN; конверсия гоняется локально; .xlsx собирается локально и отдаётся как локальный blob. Ноль сетевого трафика во время конвертации. Проверь в DevTools. Это не маркетинговое обещание — это архитектура.

Частые вопросы

Как именно детектируется таблица?

Обрабатывает ли объединённые ячейки?

Что если в PDF несколько страниц?

Как это сравнивается с Adobe Acrobat или платным конвертером?

Мой PDF правда не загружается?

Почему мой прозаический PDF выглядит как одна колонка в Excel?

А что с отсканированными PDF?

Какой максимальный размер?

100 МБ и 200 страниц. Шаг кластеризации и кодирования тяжёлый по памяти; берём ниже, чем у инструмента подсчёта страниц. Для очень больших PDF сначала разбей нашим Split PDF.

PDF в Excel

Как использовать

Похожие инструменты

Часто задаваемые вопросы

Ratings & Reviews

Rate this tool

Что делает конвертер PDF в Excel

Когда PDF в Excel — правильный инструмент

Как пользоваться конвертером PDF в Excel

Как именно работает детекция строк и колонок

Альтернативы Big Software — и какая сделка у каждой

Разбор примера: банковская выписка на 6 страниц

Что сохраняет, что не сохраняет

Про отсканированные PDF и OCR

Приватность — главная причина, по которой это в браузере

Похожие инструменты

Частые вопросы

Как именно детектируется таблица?

Обрабатывает ли объединённые ячейки?

Что если в PDF несколько страниц?

Как это сравнивается с Adobe Acrobat или платным конвертером?

Мой PDF правда не загружается?

Почему мой прозаический PDF выглядит как одна колонка в Excel?

А что с отсканированными PDF?

Какой максимальный размер?