O que o Conversor PDF para Word realmente faz
O Conversor PDF para Word extrai o texto selecionável de um PDF e empacota como arquivo .docx editável. Abra no Microsoft Word, Google Docs, LibreOffice Writer ou Apple Pages, e comece a editar. A extração de texto roda no PDF.js da Mozilla — a mesma biblioteca que o Firefox usa para renderizar PDFs nativamente — e o .docx é escrito pela biblioteca `docx` no navegador. Seu PDF nunca é enviado.
Seja honesto de cara: esta é uma conversão só-texto. Layout, tabelas, imagens, fontes embutidas, colunas, posicionamento ancorado em página, as margens cuidadosamente ajustadas do original — nada disso sobrevive. A saída são as palavras do seu PDF, em parágrafos, em ordem de leitura, prontas para editar. Se você precisa de um documento Word que abre parecendo com o PDF original (tabelas, imagens, colunas, fontes preservadas), você precisa do Adobe Acrobat Pro, que roda um motor de recuperação de documento server-side refinado por duas décadas e custa cerca de US$ 20/mês. Não tentamos competir com isso. Cobrimos o caso em que você só quer editar as palavras — mudar um nome, atualizar uma data, ajustar um parágrafo, enviar uma versão revisada — e não precisa replicar o design original. Esse é um caso comum, e para ele, esta ferramenta é a escolha certa.
Como usar
Uma tela, um arquivo, um clique. Tudo roda localmente.
- Solte ou escolha seu PDF. Até 100 MB e 500 páginas.
- Leia o aviso amarelo — esta é uma conversão só-texto. Se você precisa de tabelas, imagens ou layout preservados, esta não é a ferramenta certa; use o Adobe Acrobat Pro.
- Clique em Converter para Word. A ferramenta lê cada página, reconstrói quebras de linha a partir do layout e escreve o texto num .docx com um parágrafo por linha visual e uma linha em branco entre páginas.
- Baixe o .docx, com o nome do seu PDF de origem (ex.:
report.pdf→report.docx). Abra no Word, Google Docs, LibreOffice ou Pages e edite normalmente.
Abra a aba de rede do navegador durante a conversão: depois que a página em si carrega, a aba fica em silêncio. PDF.js lê os bytes localmente. A biblioteca docx escreve o arquivo Word localmente. O download é servido de uma blob URL. Seu PDF não sai da máquina.
Um exemplo prático com números reais
Pegue um caso real: um contrato de 12 páginas em PDF, 240 KB, exportado originalmente do Microsoft Word (então o texto é embutido, não digitalizado). Duas colunas de texto jurídico por página, rodapé com números de página, sem imagens, algumas cláusulas em negrito.
A conversão leva cerca de 1,4 segundos. A saída é um .docx de 28 KB que abre limpo no Word. O texto está todo lá — parágrafo por parágrafo, em ordem de leitura. O layout de duas colunas se foi (o .docx é coluna única). Formatação em negrito se foi (extraímos texto, não estilização). Números de página no rodapé se misturaram ao texto do corpo no limite entre páginas. O problema do negrito-vira-texto-simples significa que você vai perder ênfase visual; você pode pôr os pontos-chave em negrito de novo à mão depois que abrir no Word.
Resultado líquido: utilizável. Um contrato que você pode editar. Você pode mudar o nome da parte, atualizar a data de vigência, ajustar uma cláusula, aceitar alterações controladas de outra pessoa e depois exportar de volta para PDF pelo Word. O layout de duas colunas não importa depois que vira um documento editável porque o Word organiza do jeito do Word.
Inverta a entrada: um PDF digitalizado de 50 páginas de um manual técnico dos anos 1970. O botão de converter roda, depois devolve um .docx quase em branco. O PDF não tem texto embutido — é uma pilha de imagens de página — então não há nada para o extrator extrair. A ferramenta certa aqui é OCR. Passe o scan pela nossa ferramenta OCR de PDF primeiro, depois traga o texto resultante para o Word.
Por que o layout não é preservado
Conversão PDF-para-Word que preserva layout de verdade é genuinamente difícil. Um PDF armazena texto como um fluxo de glifos posicionados — cada caractere tem uma coordenada (x, y), uma referência de fonte e um índice de glifo. Não há marcador para "isto é um título", "isto é uma linha de tabela", "isto é uma nota de rodapé". Um conversor que quer escrever um documento Word fiel tem que inferir toda essa estrutura a partir das posições: detectar quais glifos formam um título pelo seu tamanho e peso de fonte, detectar quais linhas formam uma tabela identificando um padrão de grade nas posições de linha, detectar qual conteúdo é um callout lateral, detectar limites de coluna, detectar legendas. É um problema difícil de machine learning e um problema profundo de ergonomia.
O Adobe Acrobat Pro faz bem porque a Adobe está refinando o motor de recuperação deles desde o final dos anos 1990, treinado em um corpus de milhões de documentos, com uma pilha de heurísticas que a maioria de nós nunca vê. Eles trazem tabelas de volta como tabelas, imagens de volta como imagens, colunas de volta como colunas. Vale os US$ 20/mês se seu trabalho envolve mover documentos entre PDF e Word o dia todo.
Bibliotecas open source no lado do navegador não conseguem igualar. Ou produzem saída quebrada em PDFs do mundo real (heurísticas falham de formas surpreendentes), ou simplesmente abandonam o layout e te dão só o texto. A maioria das ferramentas "grátis PDF para Word" que você acha online — iLovePDF, SmallPDF, Smallpdf rebatizado de novo, online2pdf, freepdfconvert.com — escolhe a opção três: faça upload do seu PDF no servidor deles, rode um motor comercial nele, devolve o .docx. O resultado é mais perto da qualidade do Acrobat. O custo: seu arquivo vive no servidor deles por alguma janela de retenção, o nível grátis te limita rápido e o nível pago canaliza para uma assinatura de US$ 5-15/mês.
Escolhemos diferente: extrair texto limpo, escrever um .docx válido, avisar de cara o que você está ganhando. Para o caso em que você precisa editar as palavras — que é a razão mais comum das pessoas abrirem essas ferramentas — é a troca certa.
Como isto se compara ao Adobe Acrobat, SmallPDF, iLovePDF
Três níveis nesse mercado, escolher o nível certo evita dor de cabeça.
| Ferramenta | Privacidade | Fidelidade de layout | Custo | Melhor para |
|---|---|---|---|---|
| Adobe Acrobat Pro (desktop) | Local — roda na sua máquina | Alta — tabelas, imagens, colunas recuperadas | ~US$ 20/mês | Trabalho diário PDF↔Word, recuperação profissional de documento |
| iLovePDF / SmallPDF (web) | Arquivos enviados, mantidos por horas | Média-alta — motor comercial server-side | Grátis com tetos, US$ 9-15/mês para ilimitado | Conversões ocasionais, layout importa, não se importa com o upload |
| Esta ferramenta | Local — roda no seu navegador | Baixa — só texto, sem layout | Grátis | "Só preciso editar as palavras", documentos sensíveis, sem upload |
| Google Docs ("Abrir com") | Enviado ao Google Drive | Média — o conversor do Google é decente em PDFs simples | Grátis se tem conta Google | Você já está no ecossistema do Google |
Escolha pela troca que importa para você. Privacidade primeiro → nossa ferramenta, aceitando que vai perder layout. Fidelidade primeiro → Acrobat Pro no desktop, ou um dos serviços de upload. Grátis-e-bom-o-bastante-para-PDFs-simples → Google Docs se você está ok com os dados indo para o Google.
O que você ganha e o que perde
Saber o inventário de cara previne decepção.
O que passa:
- Texto do corpo. Cada glifo selecionável no PDF, em ordem de leitura aproximada, organizado em parágrafos por quebras de linha visuais.
- Estrutura de parágrafos. Uma linha em branco entre páginas, quebras de linha onde o PDF tem, runs de texto agrupados onde a coordenada y é consistente.
- Unicode. Caracteres acentuados, cirílico, grego, símbolos matemáticos comuns, emoji — qualquer coisa que o PDF armazenou como glifo Unicode — entra no .docx como os caracteres certos.
- Ordem de leitura, na maior parte. Documentos de coluna única saem limpos. Documentos de duas colunas às vezes intercalam as colunas; você vai precisar consertar à mão no Word.
O que é descartado:
- Tabelas. O texto dentro de células de tabela aparece no .docx como parágrafos simples em ordem de leitura aproximada, não como tabela Word. Recuperar a grade de células exigiria detectar a estrutura da tabela a partir das posições de linha — fora do escopo para uma ferramenta de fidelidade de texto.
- Imagens. Puladas inteiramente. Se você precisa delas, nossa ferramenta Extrair Imagens de PDF vai extraí-las como arquivos separados para você inserir no Word manualmente.
- Formatação. Negrito, itálico, tamanhos de fonte, cores, estilos — tudo descartado. O .docx é texto simples. Reformate o que precisa à mão depois que abrir no Word.
- Colunas. Layouts multi-coluna colapsam para coluna única.
- Cabeçalhos, rodapés, números de página. Frequentemente se misturam ao texto do corpo nos limites de página porque o PDF.js não rotula separadamente.
- Notas de rodapé. Aterrissam no texto do corpo perto de onde aparecem na página, não no fim da página no painel de notas de rodapé do Word.
- Hyperlinks. O texto do link passa como texto simples; a URL subjacente é descartada.
O teste simples: se sua meta é "quero editar as palavras", esta é a ferramenta certa. Se sua meta é "quero um documento Word que abra parecendo com o PDF", não é.
O problema das duas colunas e como consertar
A reclamação mais comum sobre extração de texto de PDFs do mundo real é a intercalação de colunas. Artigos acadêmicos, matérias de revista, jornais, documentos jurídicos — qualquer coisa em layout de duas ou três colunas — pode sair com as colunas alternando linha a linha: linha 1 da coluna 1, depois linha 1 da coluna 2, depois linha 2 da coluna 1, depois linha 2 da coluna 2. Ilegível.
Isso acontece porque o PDF.js retorna itens de texto em ordem de origem — aproximadamente de cima para baixo, esquerda para direita dentro de uma pequena tolerância y — e um layout de duas colunas tem linhas na mesma coordenada y nas duas colunas. Sem detecção de coluna (um passo de recuperação de layout que não fazemos), o extrator as lê como uma única linha cruzando o limite da coluna.
Três correções, em ordem de esforço:
- Tente a conversão primeiro. Alguns PDFs codificam limites de coluna de forma limpa o bastante para que a tolerância y separe as colunas naturalmente. Você pode ganhar saída limpa sem fazer nada.
- Se as colunas intercalaram, divida o PDF. Use nossa ferramenta Dividir PDF para extrair só uma página, depois corte a página para uma única coluna antes de converter. Tedioso para documentos longos mas à prova de balas.
- Use uma ferramenta de recuperação de layout. Para documentos pesados em colunas, Adobe Acrobat Pro ou um dos serviços server-side vai detectar as colunas corretamente. A troca é o upload, o custo, ou ambos.
Quando esta ferramenta é certa, e quando não é
Os casos certos:
- Você precisa editar as palavras. Um contrato com mudança de nome. Um artigo que você quer revisar. Um relatório que precisa atualizar antes de enviar.
- Texto de corpo de coluna única. Memos, cartas, artigos, contratos, eBooks — a maioria dos PDFs em formato de texto sai limpa.
- Documentos sensíveis. Qualquer coisa em que você pensaria duas vezes antes de fazer upload: jurídico, médico, financeiro, pessoal. A conversão roda no seu navegador; nada sai da máquina.
- PDFs longos. O limite de 500 páginas é generoso porque extração de texto é barata. A maioria dos serviços online limita em 25-50 páginas no nível grátis.
Os casos errados:
- Você precisa que o PDF pareça igual no Word. Use Acrobat Pro ou um serviço server-side. Avisamos isso de cara — não tem por que fingir.
- O PDF é majoritariamente tabelas. Relatórios financeiros, faturas, dados estruturados — tente nossa ferramenta PDF para Excel, ou use Acrobat Pro.
- O PDF é digitalizado. Sem texto selecionável significa nada para extrair. Passe pelo OCR de PDF primeiro para colocar o texto numa forma utilizável.
- Você precisa de imagens preservadas. Use Extrair Imagens de PDF para extrair, depois insira no Word manualmente.
Ferramentas PDF relacionadas
PDF para Word é uma peça numa pilha de ferramentas PDF no lado do navegador:
- Word para PDF — direção reversa. Roda no mesmo modo navegador.
- Extrair Texto de PDF — mesma etapa de extração, saída .txt simples. Escolha se você não precisa do invólucro .docx.
- PDF para Excel — extrai dados tabulares de um PDF. A ferramenta certa quando seu PDF é majoritariamente tabelas.
- OCR de PDF — para PDFs digitalizados que não têm texto selecionável. Reconhece as palavras dos pixels usando Tesseract.
- Extrair Imagens de PDF — extrai imagens embutidas como arquivos separados. Combine com esta ferramenta para recuperar tanto o texto quanto as imagens.
- Dividir PDF — quebre um PDF longo em pedaços antes de converter.
O Microapp envia cada ferramenta PDF para o lado do navegador, com as mesmas trocas explicitadas em cada página. 10% de cada dólar da receita do Microapp vai para caridade, do topo, auditado trimestralmente — então as ferramentas têm que fazer trabalho honesto, o que significa te avisamos quando esta aqui não é a resposta certa.
Perguntas frequentes
Por que o layout não é preservado?
Conversão PDF → Word que preserva layout de verdade é um problema difícil: o conversor tem que detectar títulos, parágrafos, colunas, tabelas, listas e posicionamento de imagem a partir de um fluxo de glifos posicionados que não tem estrutura semântica. O Adobe Acrobat Pro faz bem porque eles rodam um motor de recuperação server-side treinado em milhões de documentos. Bibliotecas open source client-side não conseguem igualar — cada tentativa honesta ou produz saída quebrada para PDFs do mundo real ou exige fazer upload do arquivo num serviço de nuvem. Escolhemos nenhum dos dois: extraímos texto limpo, empacotamos como .docx válido e te avisamos de cara que é isso que você ganha. É a troca certa para "só preciso editar as palavras".
E sobre tabelas — vão passar?
Não. Tabelas num PDF não são armazenadas como tabelas — são armazenadas como uma grade de runs de texto posicionados independentemente e linhas desenhadas. Para reconstruir uma tabela você tem que detectar a grade de células a partir das posições de linha e agrupar o texto conforme, que é exatamente o tipo de recuperação de layout que esta ferramenta deliberadamente não faz. O texto das células aparecerá no seu .docx mas como parágrafos simples em ordem de leitura aproximada, não como tabela Word. Se seu PDF é majoritariamente tabelas (ex.: um demonstrativo financeiro, uma fatura), use uma ferramenta dedicada de PDF-para-Excel ou o Adobe Acrobat Pro.
Imagens passam?
Não. Imagens embutidas no PDF são puladas inteiramente. A passagem de extração de texto lê só glifos, e escrever imagens num .docx exige recodificá-las e computar coordenadas de posicionamento que combinem com a página original — fora do escopo para uma ferramenta de fidelidade de texto. Se você precisa das imagens, extraia separadamente com nossas ferramentas PDF para PNG ou PDF para JPG e insira no Word manualmente.
Como isto difere do Adobe Acrobat Pro?
Acrobat Pro roda um pipeline completo de recuperação de documento: detecta títulos, parágrafos, colunas, listas, tabelas e regiões de imagem, depois escreve um documento Word que parece visualmente similar ao PDF original. É a ferramenta padrão da indústria para isso e custa ~US$ 20/mês. Não tentamos competir em fidelidade — cobrimos o caso em que você não precisa da fidelidade visual, só do texto editável. Se sua saída 'tem que parecer com o PDF original quando reaberta no Word', use Acrobat Pro. Se sua saída 'tem que conter o texto do PDF para eu editar no Word', use esta ferramenta.
Meu PDF realmente não é enviado?
Correto. As duas etapas rodam no navegador. PDF.js (a mesma biblioteca que renderiza PDFs dentro do Firefox) extrai o texto, e a biblioteca `docx` monta o arquivo Word na memória do navegador. Seus bytes nunca saem da sua máquina. Confira a aba de rede do navegador durante a conversão: zero requisições de saída depois que a página em si carrega.
Funciona em PDFs digitalizados?
Não — e dizemos isso claramente quando não funciona. PDFs digitalizados são imagens de texto, não texto selecionável. Para extrair palavras de um scan você precisa de OCR (Reconhecimento Óptico de Caracteres), que é uma operação diferente. Esta ferramenta extrai texto que já está no PDF. Para scans, passe o PDF por uma ferramenta de OCR primeiro (Adobe Acrobat, Visualização do macOS, Tesseract ou um dos serviços de OCR online grátis), salve o resultado e depois passe pela ferramenta.
Posso converter um PDF protegido por senha?
Não — PDF.js se recusa a abrir PDFs criptografados. Desbloqueie o PDF primeiro usando um leitor desktop (Adobe Acrobat: Arquivo → Propriedades → Segurança → 'Salvar Como' uma cópia desprotegida; ou Visualização do macOS: Arquivo → Exportar → desmarque 'Criptografar') e rode a cópia desbloqueada pela ferramenta.
Qual o tamanho máximo de arquivo ou contagem de páginas?
100 MB e 500 páginas por PDF. Extração de texto é mais rápida que renderização de página inteira, então o limite é generoso. Para documentos de milhares de páginas (discovery jurídico, manuscritos grandes), divida o PDF primeiro com nosso Dividir PDF e converta em pedaços.
Por que minhas quebras de linha estão estranhas?
PDF.js retorna itens de texto em ordem de origem com coordenadas x/y; inserimos uma quebra de linha sempre que a coordenada y salta. A maioria dos PDFs sai limpa, mas documentos de duas colunas intercalam as colunas e alguns PDFs têm posicionamento de texto incomum que produz quebras extras no meio do parágrafo. Uma vez que o .docx está aberto no Word, use Localizar e Substituir para limpar: substitua `^p` (marca de parágrafo) por um espaço, depois reparagrafize na mão. Ainda é mais rápido do que redigitar.