Что реально делает конвертер PDF в Word
Конвертер PDF в Word вытаскивает выделяемый текст из PDF и упаковывает его в редактируемый .docx. Открой в Microsoft Word, Google Docs, LibreOffice Writer или Apple Pages и начинай редактировать. Извлечение текста работает на PDF.js от Mozilla — той же библиотеке, что Firefox использует для нативного рендера PDF, — а .docx пишется библиотекой `docx` в браузере. PDF не загружается.
Будем честны сразу: это конверсия только текста. Вёрстка, таблицы, картинки, встроенные шрифты, колонки, привязка к странице, точно подобранные поля оригинала — ничего этого не переживает. На выходе слова PDF в абзацах, в порядке чтения, готовые к редактированию. Если нужен Word-документ, открывающийся как оригинальный PDF (сохранённые таблицы, картинки, колонки, шрифты), нужен Adobe Acrobat Pro, у которого серверный движок восстановления оттачивается два десятилетия и стоит около $20/мес. Мы не пытаемся с этим конкурировать. Мы закрываем случай, когда нужно просто отредактировать слова — поменять имя, обновить дату, поправить абзац, отправить исправленную версию — и не нужно повторять оригинальный дизайн. Это частый случай, и для него этот инструмент правильный.
Как пользоваться
Один экран, один файл, один клик. Всё работает локально.
- Брось или выбери PDF. До 100 МБ и 500 страниц.
- Прочитай жёлтое предупреждение — это конверсия только текста. Если нужно сохранение таблиц, картинок или вёрстки, это не тот инструмент; используй Adobe Acrobat Pro.
- Нажми «Конвертировать в Word». Инструмент читает каждую страницу, восстанавливает разрывы строк из вёрстки и пишет текст в .docx — один абзац на визуальную строку и пустая строка между страницами.
- Скачай .docx с именем по исходному PDF (например,
report.pdf→report.docx). Открой в Word, Google Docs, LibreOffice или Pages и редактируй как обычно.
Открой вкладку Network в браузере во время конвертации: после загрузки самой страницы вкладка молчит. PDF.js читает байты локально. Библиотека docx пишет файл Word локально. Скачивание идёт через blob-URL. PDF не покидает машину.
Разбор примера с реальными цифрами
Возьмём реальный случай: 12-страничный договор в PDF, 240 КБ, изначально экспортированный из Microsoft Word (то есть текст встроен, не сканирован). Две колонки юридического текста на страницу, подвал с номерами страниц, без картинок, несколько пунктов жирным.
Конверсия занимает около 1,4 секунды. На выходе .docx 28 КБ, чисто открывается в Word. Текст весь на месте — абзац к абзацу, в порядке чтения. Двухколонная вёрстка исчезла (в .docx одна колонка). Жирное форматирование исчезло (мы извлекаем только текст, не стили). Номера страниц в подвале смешались с основным текстом на границе между страницами. Проблема «жирный текст становится обычным» означает, что визуальные акценты потеряны; можно вручную выделить ключевые пункты, когда документ открыт в Word.
Итог: пригодно. Договор, который можно редактировать. Можно поменять название стороны, обновить дату вступления в силу, переписать пункт, принять отслеженные правки от кого-то, потом экспортировать обратно в PDF из Word. Двухколонная вёрстка не важна, когда документ редактируемый, — Word раскладывает его так, как хочет Word.
Переверни вход: 50-страничный отсканированный PDF технического руководства 1970-х. Кнопка конвертации срабатывает, потом возвращает почти пустой .docx. У PDF нет встроенного текста — это стопка картинок страниц — поэтому извлекателю нечего извлекать. Правильный инструмент здесь — OCR. Прогони скан сначала через наш OCR PDF, потом принеси полученный текст в Word.
Почему вёрстка не сохраняется
Настоящая конверсия PDF в Word с сохранением вёрстки — действительно сложная задача. PDF хранит текст как поток позиционированных глифов — у каждого символа есть (x, y), ссылка на шрифт и индекс глифа. Нет маркера «это заголовок», «это строка таблицы», «это сноска». Конвертер, который хочет написать верный Word-документ, должен вывести всю эту структуру из позиций: распознать, какие глифы образуют заголовок по размеру и весу, какие строки образуют таблицу по сеточному шаблону позиций, какое содержимое — врезка, где границы колонок, где подписи. Это сложная ML-задача и глубокая эргономическая задача.
Adobe Acrobat Pro делает это хорошо, потому что Adobe оттачивает свой движок восстановления с конца 1990-х, обучая его на корпусе миллионов документов, со стеком эвристик, которых большинство из нас никогда не видит. У них таблицы возвращаются как таблицы, картинки как картинки, колонки как колонки. Стоит $20/мес, если работа — каждый день перемещать документы между PDF и Word.
Открытые клиентские библиотеки так не могут. Либо выдают ломаный выход на реальных PDF (эвристики падают неожиданным образом), либо вообще отказываются от вёрстки и просто отдают текст. Большинство «бесплатных PDF в Word» в интернете — iLovePDF, SmallPDF, Smallpdf снова под другим брендом, online2pdf, freepdfconvert.com — выбирают третий путь: загружают PDF на свой сервер, гоняют коммерческий движок, возвращают .docx. Результат ближе к качеству Acrobat. Цена: файл живёт на их сервере какое-то время хранения, бесплатный тариф быстро упирается в лимит, а платный воронкой ведёт к подписке $5–15/мес.
Мы выбрали иначе: извлекать чистый текст, писать валидный .docx, честно говорить, что получаешь. Для случая, когда нужно отредактировать слова — самой частой причины открывать такие инструменты — это правильная сделка.
Как это сравнивается с Adobe Acrobat, SmallPDF, iLovePDF
В этом рынке три уровня; правильный уровень экономит головную боль.
| Инструмент | Приватность | Верность вёрстки | Стоимость | Лучше для |
|---|---|---|---|---|
| Adobe Acrobat Pro (десктоп) | Локально — на твоей машине | Высокая — таблицы, картинки, колонки восстанавливаются | ~$20/мес | Ежедневная PDF↔Word работа, профессиональное восстановление документов |
| iLovePDF / SmallPDF (веб) | Файлы загружаются, хранятся часами | Средне-высокая — серверный коммерческий движок | Бесплатно с лимитами, $9–15/мес без | Случайные конверсии, важна вёрстка, не важна загрузка |
| Этот инструмент | Локально — в браузере | Низкая — только текст, без вёрстки | Бесплатно | «Просто отредактировать слова», чувствительные документы, без загрузки |
| Google Docs («Открыть с») | Загружается на Google Drive | Средняя — конвертер Google пристойный на простых PDF | Бесплатно при аккаунте Google | Ты уже в экосистеме Google |
Выбирай по нужной сделке. Приватность в первую очередь → наш инструмент, принимая потерю вёрстки. Верность в первую очередь → Acrobat Pro на десктопе или один из сервисов с загрузкой. Бесплатно-и-достаточно-хорошо для простых PDF → Google Docs, если ОК с тем, что данные уйдут в Google.
Что получаешь и что теряешь
Знать инвентарь заранее предотвращает разочарование.
Что проходит:
- Основной текст. Каждый выделяемый глиф PDF, примерно в порядке чтения, организованный в абзацы по визуальным разрывам строк.
- Структура абзацев. Пустая строка между страницами, разрывы строк там, где они в PDF, пробеги текста сгруппированы там, где y-координата согласована.
- Unicode. Акцентированные символы, кириллица, греческий, частые математические символы, эмодзи — всё, что PDF хранил как Unicode-глиф, попадает в .docx как нужные символы.
- Порядок чтения, в основном. Одноколонные документы выходят чисто. Двухколонные иногда переплетают колонки; придётся поправлять вручную в Word.
Что выпадает:
- Таблицы. Текст внутри ячеек таблицы появляется в .docx как обычные абзацы примерно в порядке чтения, не как таблица Word. Восстановление сетки ячеек потребовало бы распознавать структуру таблицы по позициям линий — вне охвата инструмента, ориентированного на верность текста.
- Картинки. Полностью пропускаются. Если нужны, наш «Извлечь картинки из PDF» вытащит их как отдельные файлы для вставки в Word вручную.
- Форматирование. Жирный, курсив, размеры шрифтов, цвета, стили — всё убирается. .docx — простой текст. Переформатируй вручную в Word, что нужно.
- Колонки. Многоколонная вёрстка схлопывается в одну колонку.
- Заголовки, подвалы, номера страниц. Часто смешиваются с основным текстом на границах страниц, потому что PDF.js не помечает их отдельно.
- Сноски. Приземляются в основной текст рядом с тем местом, где они на странице, не внизу страницы в панели сносок Word.
- Гиперссылки. Текст ссылки проходит как обычный текст; подразумеваемый URL выпадает.
Простой тест: если цель «хочу отредактировать слова», это правильный инструмент. Если цель «хочу Word-документ, открывающийся как PDF», — нет.
Проблема двух колонок и как её исправить
Самая частая жалоба на извлечение текста из реальных PDF — переплетение колонок. Академические статьи, журнальные статьи, газеты, юридические документы — всё, что в две или три колонки — может выходить с чередованием строк: строка 1 колонки 1, строка 1 колонки 2, строка 2 колонки 1, строка 2 колонки 2. Нечитаемо.
Это происходит, потому что PDF.js возвращает текстовые элементы в порядке источника — примерно сверху вниз, слева направо в пределах малой y-толерантности — а у двухколонной вёрстки строки на одной y-координате в обеих колонках. Без детекции колонок (шаг восстановления вёрстки, который мы не делаем) экстрактор читает их как одну строку, пересекающую границу колонки.
Три исправления, по нарастанию усилий:
- Сначала попробуй конверсию. Некоторые PDF кодируют границы колонок достаточно чисто, чтобы y-толерантность разделяла колонки естественно. Может выйти чисто без действий.
- Если колонки переплелись, разбей PDF. Используй наш Split PDF, чтобы вытащить одну страницу, потом обрежь её до одной колонки до конвертации. Утомительно для длинных документов, но надёжно.
- Бери инструмент с восстановлением вёрстки. Для тяжёлых документов с колонками Adobe Acrobat Pro или один из серверных сервисов распознает колонки правильно. Цена — загрузка, стоимость или и то и другое.
Когда этот инструмент правильный, а когда нет
Правильные случаи:
- Нужно отредактировать слова. Договор со сменой имени. Статья, которую хочется переписать. Отчёт, который нужно обновить до отправки.
- Одноколонный основной текст. Меморандумы, письма, статьи, договоры, электронные книги — большинство «текст-формы» PDF выходят чисто.
- Чувствительные документы. Что-то, что дважды подумаешь перед загрузкой: юридическое, медицинское, финансовое, личное. Конверсия работает в браузере; ничего не покидает машину.
- Длинные PDF. Лимит в 500 страниц щедрый, потому что извлечение текста дешёвое. Большинство онлайн-сервисов ставит лимит 25–50 страниц на бесплатном тарифе.
Неправильные случаи:
- Нужно, чтобы PDF выглядел так же в Word. Бери Acrobat Pro или серверный сервис. Мы это говорим сразу — нет смысла притворяться.
- PDF в основном таблицы. Финансовая отчётность, счета, структурированные данные — попробуй наш PDF в Excel или используй Acrobat Pro.
- PDF — скан. Без выделяемого текста извлекать нечего. Прогони через OCR PDF, чтобы получить текст в пригодной форме.
- Нужны картинки. Бери «Извлечь картинки из PDF», потом вставь в Word вручную.
Похожие PDF-инструменты
PDF в Word — одна плитка в стопке браузерных PDF-инструментов:
- Word в PDF — обратное направление. Работает в том же браузерном режиме.
- Извлечь текст из PDF — тот же шаг извлечения, выход обычным .txt. Бери, если не нужна обёртка .docx.
- PDF в Excel — вытаскивает табличные данные из PDF. Правильный инструмент, когда PDF в основном таблицы.
- OCR PDF — для отсканированных PDF без выделяемого текста. Распознаёт слова из пикселей через Tesseract.
- Извлечь картинки из PDF — достаёт встроенные картинки как отдельные файлы. Пары с этим инструментом, чтобы восстановить и текст, и картинки.
- Разделить PDF — разбить длинный PDF на куски до конвертации.
Microapp шипит каждый PDF-инструмент в браузере, с прописанными на каждой странице компромиссами. 10% от каждого доллара выручки Microapp идут на благотворительность — сверху, с аудитом раз в квартал — поэтому инструменты должны делать честную работу, и мы говорим, когда этот инструмент не тот.
Частые вопросы
Почему вёрстка не сохраняется?
Настоящая конверсия PDF → Word с сохранением вёрстки — действительно сложная задача: конвертер должен распознать заголовки, абзацы, колонки, таблицы, списки и расстановку картинок из потока позиционированных глифов без семантической структуры. Adobe Acrobat Pro делает это хорошо, потому что у них серверный движок восстановления, обученный на миллионах документов. Открытые клиентские библиотеки так не могут — каждая честная попытка либо даёт ломаный выход на реальных PDF, либо требует загрузки в облако. Мы выбрали ни то ни другое: извлекаем чистый текст, упаковываем в валидный .docx и честно сообщаем, что ты получаешь. Это правильная сделка для «нужно просто отредактировать слова».
А таблицы — пройдут?
Нет. Таблицы в PDF не хранятся как таблицы — это сетка из независимо позиционированных текстовых пробегов и нарисованных линий. Чтобы восстановить таблицу, нужно распознать сетку ячеек по позициям линий и сгруппировать текст — ровно то восстановление вёрстки, которое инструмент намеренно не делает. Текст ячеек появится в .docx, но как обычные абзацы примерно в порядке чтения, не как таблица Word. Если PDF в основном таблицы (финансовая отчётность, счёт), бери специализированный PDF в Excel или Adobe Acrobat Pro.
Картинки проходят?
Нет. Встроенные в PDF картинки полностью пропускаются. Проход извлечения читает только глифы, а запись картинок в .docx требует перекодирования и расчёта координат расстановки, совпадающих с исходной страницей — вне охвата инструмента, ориентированного на верность текста. Если нужны картинки, достань их отдельно нашими PDF в PNG или PDF в JPG и вставь в Word вручную.
Чем это отличается от Adobe Acrobat Pro?
Acrobat Pro гоняет полный конвейер восстановления документа: распознаёт заголовки, абзацы, колонки, списки, таблицы и регионы картинок, потом пишет Word-документ, визуально похожий на исходный PDF. Это индустриальный стандарт для такой задачи, стоит ~$20/мес. Мы не пытаемся конкурировать по верности — мы закрываем случай, где не нужна визуальная верность, нужен только редактируемый текст. Если выход «должен выглядеть как исходный PDF, когда переоткрыт в Word», бери Acrobat Pro. Если выход «должен содержать текст из PDF, чтобы я мог редактировать в Word», бери этот.
Мой PDF правда не загружается?
Верно. Обе стадии работают в браузере. PDF.js (та же библиотека, что рендерит PDF внутри Firefox) извлекает текст, а docx собирает файл Word в памяти браузера. Байты не покидают машину. Проверь вкладку Network во время конвертации: ноль исходящих запросов после загрузки самой страницы.
Работает ли на отсканированных PDF?
Нет — и мы это чётко говорим, когда не работает. Отсканированные PDF — это картинки текста, а не выделяемый текст. Чтобы достать слова из скана, нужен OCR (Optical Character Recognition) — другая операция. Этот инструмент извлекает текст, который уже в PDF. Для сканов сначала прогони PDF через OCR (Adobe Acrobat, macOS Preview, Tesseract или один из бесплатных онлайн-OCR), сохрани результат, потом гоняй через нас.
Можно ли конвертировать PDF под паролем?
Нет — PDF.js отказывается открывать зашифрованные PDF. Сними защиту в десктопном просмотрщике (Adobe Acrobat: «Файл → Свойства → Защита → Сохранить как» незашифрованную копию; или macOS Preview: «Файл → Экспорт → снять Encrypt») и гоняй разблокированную копию.
Какой максимальный размер или число страниц?
100 МБ и 500 страниц на PDF. Извлечение текста быстрее полного рендера страниц, так что лимит щедрый. Для многотысячных документов (юридическое раскрытие, большие рукописи) сначала разбей PDF нашим Split PDF и конвертируй кусками.
Почему странные разрывы строк?
PDF.js возвращает текстовые элементы в порядке источника с x/y-координатами; мы вставляем разрыв строки, когда y-координата прыгает. Большинство PDF выходят чисто, но двухколонные документы переплетают колонки, а у некоторых PDF необычное позиционирование даёт лишние разрывы посреди абзаца. Когда .docx открыт в Word, используй «Найти и заменить» для чистки: замени ^p (знак абзаца) на пробел, потом расставь абзацы вручную. Всё равно быстрее, чем перепечатывать.