PDF para Excel

🔒 Everything happens in your browser. The PDF never uploads. Close the tab and it's gone.

O conversor PDF para Excel lê os fragmentos de texto do seu PDF e agrupa numa grade: linhas pela coordenada Y, colunas pelos gaps em X. O resultado é uma pasta .xlsx real com uma aba por página do PDF — abra no Excel, Google Sheets ou Numbers. Honesto sobre o escopo: funciona bem em PDFs que já SÃO tabelas (relatórios financeiros, exportações de apps de planilha, extratos de conta). PDFs em prosa colapsam para uma única coluna de texto de parágrafo. Para layouts complexos multi-coluna ou células mescladas, uma ferramenta desktop com seleção manual de região serve melhor. Roda inteiramente no seu navegador usando PDF.js da Mozilla e SheetJS. Sem upload, sem servidor.

Built by Bob Article by Lace QA by Ben Shipped

Como usar

  1. 1

    Solte ou escolha seu PDF. Até 100 MB e 200 páginas.

  2. 2

    Leia o aviso amarelo — ele diz que tipo de PDF funciona aqui (tabelas) e que tipo não (prosa, scans, layouts complexos).

  3. 3

    Clique em "Converter para Excel." A ferramenta lê cada página, agrupa os fragmentos de texto numa grade 2D e emite uma aba por página do PDF.

  4. 4

    Baixe o arquivo .xlsx (com o nome do seu PDF de origem — invoice.pdf → invoice.xlsx). Abra no Excel, Google Sheets, Numbers ou LibreOffice Calc.

  5. 5

    Confira o resultado. Limites de coluna são uma melhor aproximação baseada em gaps horizontais — se uma divisão de coluna saiu errada, corrija no seu app de planilha com Texto-para-Colunas ou editando as células diretamente.

Perguntas frequentes

Ratings & Reviews

Rate this tool

Sign in to rate and review this tool.

Loading reviews…

O que o Conversor PDF para Excel faz

Um PDF armazena texto como fragmentos posicionados — cada palavra conhece sua localização (x, y) na página, mas nada no arquivo sabe o que é uma "linha" ou uma "coluna". O Conversor PDF para Excel olha esses fragmentos, agrupa em linhas pela coordenada Y, divide cada linha em colunas onde há um gap horizontal largo, e escreve o resultado numa pasta .xlsx real. Uma aba por página do PDF. Abra no Excel, Google Sheets, Numbers ou LibreOffice Calc. Sem upload, sem marca d'água, sem cadastro.

Todo o pipeline roda no seu navegador. PDF.js (biblioteca PDF open source da Mozilla — a mesma que o Firefox usa internamente) lê seu PDF e nos entrega fragmentos de texto com coordenadas. SheetJS codifica o resultado no formato binário .xlsx. As duas bibliotecas rodam na sua CPU, na sua aba. Abra o DevTools, troque para a aba Network, clique em Converter. Zero requisições de saída. Seus bytes não saem da sua máquina.

Uma ressalva honesta logo no topo: isto funciona bem em PDFs que já são tabelas — relatórios financeiros, extratos, exportações de apps de planilha, dumps de dados governamentais, anexos de reunião de diretoria. Funciona menos bem em PDFs em prosa (um documento de coluna de texto colapsa para uma única coluna de valores de célula, o que está correto mas provavelmente não é o que você queria) e nada em PDFs digitalizados (imagem de texto, não texto — isso é trabalho de OCR, veja abaixo). Saber o que a ferramenta faz e não faz no início economiza um minuto perdido.

Quando PDF para Excel é a ferramenta certa

Tabelas ficam presas em PDFs todo dia. Relatórios trimestrais, extratos bancários, formulários fiscais, faturas de fornecedor, releases de dados governamentais, exportações de MIS interno, anexos de reunião de diretoria, artigos acadêmicos com tabelas de resultados — em qualquer lugar onde uma planilha originalmente viveu, alguém eventualmente decidiu "compartilhar a versão em PDF". Os números estão ali na página; só não estão num formato que você pode somar, filtrar, ordenar ou pivotar.

Situações reais onde a ferramenta compensa:

  • Conciliação de extrato bancário. Seu banco envia extratos mensais como PDF. Você quer as transações numa planilha para categorizar, somar por estabelecimento e mandar para seu contador. As transações são uma tabela em cada página do extrato.
  • Faturas de fornecedor. Um fornecedor manda 6 faturas por mês como PDF. Seu fluxo de contas a pagar precisa delas como linhas numa pasta para totalizar por mês e reconciliar com ordens de compra.
  • Dados de pesquisa. Uma agência governamental, um artigo acadêmico ou um relatório de indústria publica uma tabela de dados-chave dentro de um relatório em PDF. Você quer no Excel para fazer gráfico ou juntar aos seus próprios dados.
  • Relatórios de vendas do seu CRM. O CRM tem um botão "Baixar como PDF" mas não "Baixar como Excel" — ou só no nível pago. O PDF tem a tabela pela qual você senão pagaria US$ 20/usuário/mês para exportar de outro jeito.
  • Listas de chamada ou logs de presença. Um professor ou administrativo recebe uma lista como PDF, precisa numa planilha para fazer chamada, dar nota ou compartilhar com substitutos.

Em cada caso, os dados subjacentes são tabulares — linhas e colunas fixas — e o PDF é só o invólucro que alguém escolheu. O conversor tira o invólucro e devolve a tabela.

Como usar o Conversor PDF para Excel

Uma tela. Zona de drop no topo, um aviso curto explicando o que funciona e o que não, um botão de converter embaixo.

  1. Solte ou escolha seu PDF. Até 100 MB e 200 páginas.
  2. Leia o aviso amarelo — ele diz que tipo de PDF funciona aqui (tabelas) e que tipo não (prosa, scans, layouts complexos).
  3. Clique em "Converter para Excel." A ferramenta lê cada página, agrupa os fragmentos de texto numa grade 2D e emite uma aba por página do PDF.
  4. Baixe o arquivo .xlsx (com o nome do seu PDF de origem — invoice.pdfinvoice.xlsx). Abra no Excel, Google Sheets, Numbers ou LibreOffice Calc.
  5. Confira o resultado. Limites de coluna são uma melhor aproximação baseada em gaps horizontais — se uma divisão de coluna saiu errada, corrija no seu app de planilha com Texto-para-Colunas ou editando as células diretamente.

É isso. Sem "cadastre-se para destravar conversão de mais de 5 páginas". Sem teto de 10 MB no nível grátis. Sem marca d'água carimbada nos seus dados.

Como a detecção de linha-e-coluna funciona de fato

Esta é a parte interessante, e vale entender porque explica tanto os ganhos quanto os modos de falha.

O PDF.js nos entrega uma lista de fragmentos de texto por página. Cada fragmento tem: a string que contém, uma posição x/y na página (em pontos — 72 por polegada) e uma largura. Uma página típica tem de centenas a milhares de fragmentos. Nossa tarefa: transformar isso numa grade.

Etapa um — agrupar linhas por Y. Fragmentos cujas coordenadas Y estão a cerca de 5 pontos um do outro são tratados como a mesma linha. 5pt é cerca de metade de uma linha de texto de corpo, então isso absorve a variação natural de baseline em qualquer linha de tabela enquanto ainda separa uma linha da próxima. O resultado é uma lista ordenada de linhas, de cima para baixo.

Etapa dois — dividir colunas por gaps em X. Dentro de cada linha, fragmentos são ordenados da esquerda para a direita. Onde o gap horizontal entre fragmentos adjacentes excede cerca de 8 pontos, inserimos um limite de coluna. 8pt é mais largo que espaçamento típico entre palavras (um espaço fica em torno de 3pt em fonte de 10pt) mas mais estreito que a sarjeta que a maioria dos designers de tabela usa entre colunas. Então palavras adjacentes na mesma coluna ficam na mesma célula; colunas adjacentes são divididas.

É o algoritmo inteiro. Duas heurísticas afinadas pelo jeito como tabelas reais são realmente dispostas. Sem machine learning, sem API na nuvem, sem upload-e-esperar-por-nossa-IA. Só geometria. Funciona bem em tabelas reais pela mesma razão: tabelas reais são a geometria que ele está esperando.

Onde falha: uma "tabela" que na verdade é uma página multi-coluna de prosa (pense numa matéria de revista, num artigo de conferência em duas colunas) será dividida em colunas pelo detector de gap em X. Isso é o algoritmo fazendo exatamente o que deve — gaps horizontais largos entre os dois blocos de texto. Se você queria a prosa de volta, use Extrair Texto de PDF, que preserva ordem de leitura.

Alternativas do Big Software — e o acordo que cada uma oferece

Você tem três outras opções para extrair tabelas de um PDF, e cada uma vem com seu imposto.

Adobe Acrobat Pro (US$ 19,99/mês, ou US$ 239,88/ano) é o padrão ouro. Tem um pipeline real de detecção de tabela afinado por décadas — detecção de linha, fallback de OCR para tabelas digitalizadas, reconhecimento de cabeçalho, tratamento de nota de rodapé. Para PDFs sem estrutura óbvia de tabela (sem bordas, células mescladas, layouts irregulares), é melhor que nós. O preço é o preço: uma assinatura mensal perpétua, converta você 100 PDFs por mês ou um. A maioria das pessoas que tem Acrobat usa para 5% do que ele faz.

iLovePDF, SmallPDF, PDF24, ABBYY FineReader Online, Convertio — a turma do upload-primeiro. Pegam seu PDF, mandam para um servidor em algum lugar, rodam uma conversão lá, te mandam de volta um .xlsx. Mesma qualidade de conversão que a nossa nos casos fáceis; às vezes melhor nos casos difíceis (alguns deles fazem OCR de tabelas digitalizadas; nós não). A troca: seu PDF agora está no servidor de alguém. Para um PDF de dataset público, tudo bem. Para um extrato bancário, uma tabela de salários, um contrato com itens de linha, um documento de RH — você acabou de enviar para um estranho e está confiando que vão deletar. Mais limites de uso (SmallPDF te limita em 2 conversões antes do cadastro; Sejda em 3/hora) e um discurso de Plano Pro em cada página.

"Copiar e colar do PDF para o Excel." Tente uma vez numa tabela multi-coluna e veja as colunas colapsarem numa única coluna de valores de célula. O copiar-e-colar do PDF preserva texto mas descarta layout — é exatamente o problema que nossa detecção de coluna foi construída para resolver. Funciona para uma lista de uma coluna. Desmorona em qualquer coisa mais larga.

O pitch do Big Software é sempre: a conversão é "grátis!" mas a experiência é controlada por portões. Nível grátis com teto de 2 arquivos, 10 páginas cada, com marca d'água. Nível Pro destrava o resto. Cadastre-se para remover o teto. Assine para remover a marca d'água. Estamos comprando uma briga com esse modelo de propósito. O navegador faz o trabalho. Não há custo marginal para nós. Então não há preço marginal para você. "Existe uma solução para tudo" não significa "existe uma solução paga para tudo".

Exemplo prático: um extrato bancário de 6 páginas

Você está reconciliando despesas do trimestre. Seu banco manda um extrato mensal como PDF. Seis páginas, três extratos numa pasta. Cada extrato tem um cabeçalho (página 1 com info de conta, resumo), três páginas de transações numa tabela de 5 colunas (data, descrição, débito, crédito, saldo) e uma página final com letras miúdas.

O que acontece quando você solta um extrato no conversor:

  1. Você solta statement-2026-04.pdf na zona de drop. O widget mostra a contagem de páginas (6) e um botão Converter.
  2. Clique em Converter para Excel. Cerca de 2 segundos depois, o download ativa.
  3. Você abre statement-2026-04.xlsx. Tem seis abas: "Página 1", "Página 2", ..., "Página 6".
  4. Página 1 tem o cabeçalho da conta — nome, endereço, número da conta — agrupado em linhas aproximadas. Não muito útil como tabela, mas é fiel ao que está na página.
  5. Páginas 2–4 são as transações. Cada linha tem 5 colunas: data, descrição, débito, crédito, saldo. A linha de cabeçalho do PDF do banco é a primeira linha de cada aba.
  6. Páginas 5–6 são os totais e letras miúdas. Geralmente inúteis para conciliação; ignore.

Você seleciona páginas 2–4, copia as linhas, cola na sua pasta mestre. Cinco segundos de limpeza — algumas células de débito/crédito onde o PDF do banco usou uma convenção estranha de espaçamento e nosso detector de coluna dividiu ligeiramente diferente. Clique, clique, pronto. Repita para os outros dois extratos. Tempo total: cerca de 5 minutos. O mesmo trabalho pelo Adobe Acrobat seria mais ou menos o mesmo tempo, mais uma assinatura de US$ 19,99. Pelo SmallPDF: passo de upload mais lento, mais os dados do seu banco agora estão no servidor do SmallPDF.

O que preserva, o que não

Definir expectativas honesto poupa frustração. Eis o que sobrevive à conversão e o que não:

FeatureO que acontece
Texto e números das célulasPreservados exatamente como o PDF.js lê
Ordem das linhasPreservada (de cima para baixo de cada página)
Ordem das colunasPreservada (esquerda para direita de cada linha)
Linha de cabeçalhoVira a primeira linha da aba (sem status especial de "cabeçalho" aplicado)
Tabelas multi-páginaUma aba por página — a tabela é dividida entre abas, você recombina no Excel
Células mescladasMelhor esforço: o valor vai para a célula mais à esquerda do merge
Bordas, cores, fontesRemovidas — só valores
FórmulasNão se aplica — PDFs não carregam fórmulas, só valores computados
Tabelas digitalizadasNão funciona — sem OCR. PDFs de imagem saem vazios.
Layout multi-coluna de página (ex.: colunas de revista)As duas colunas acabam lado a lado na planilha — geralmente não é o que você quer
Imagens embutidas em célulasRemovidas — veja Extrair Imagens PDF para essas

Se um limite de coluna sair errado no seu PDF específico — digamos que o conversor mesclou duas colunas que deveriam ter sido separadas porque o gap horizontal era 6pt em vez de 8pt — a correção é no próprio Excel, não na nossa ferramenta. Selecione a coluna, Dados → Texto para Colunas → Largura Fixa → arraste o limite para o ponto certo. 30 segundos. A alternativa — construir uma UI para usuários arrastarem manualmente limites de coluna no nosso widget — dobraria a complexidade da ferramenta para os 5% de conversões onde ajudaria. A Promessa de Simplicidade diz: faça um trabalho. Fazemos.

Sobre PDFs digitalizados e OCR

O único "a ferramenta não funcionou" mais comum em qualquer conversor PDF é: eu soltei um scan, o resultado estava vazio. Eis o porquê, e o que fazer.

Um PDF digitalizado é uma foto de uma página envolvida em metadados de PDF. Não há texto dentro — cada "letra" é um padrão de pixel. O PDF.js, quando pedido para extrair texto de um scan, encontra zero fragmentos de texto e nos entrega nada. Então nosso detector de linha/coluna não tem nada para agrupar, e a saída .xlsx fica vazia. Não é um bug que conseguimos corrigir nesta ferramenta; é a entrada sendo um tipo diferente de objeto do que a ferramenta lê.

O que fazer: fazer OCR no PDF primeiro. Reconhecimento Óptico de Caracteres converte os pixels de volta em fragmentos de texto — uma vez feito, você tem um PDF "real" com texto extraível, e o conversor vai funcionar. Opções:

  • Adobe Acrobat Pro tem OCR embutido (Ferramentas → Reconhecer Texto). Rode, salve, depois passe o resultado por aqui.
  • Visualização do macOS faz auto-OCR em PDFs quando você os abre em versões recentes do macOS. Salve uma cópia.
  • Tesseract (open source, linha de comando) — instale via Homebrew ou apt, rode no seu PDF.
  • Google Drive — faça upload, "Abrir com Google Docs", e o Drive faz OCR no conteúdo. Nota de privacidade: seu PDF agora está no Google.

Podemos adicionar uma ferramenta de OCR no navegador depois (tesseract.js funciona no navegador, só lento), mas é uma operação substancialmente diferente da extração baseada em texto e merece sua própria ferramenta.

Privacidade é a razão inteira disto existir no navegador

A razão de conversores PDF-para-Excel serem majoritariamente baseados em nuvem é simples: é mais fácil para o fornecedor rodar a conversão no servidor dele do que enviar um parser PDF rápido para o navegador de cada usuário. A troca de privacidade do usuário — "dê-nos seu PDF, prometemos deletar" — é o custo da escolha de engenharia mais fácil.

O Microapp escolheu a escolha de engenharia mais difícil de propósito. PDF.js roda no seu navegador, rápido, em qualquer dispositivo moderno. SheetJS roda no seu navegador, rápido, em qualquer dispositivo moderno. Não há razão para a conversão ter que acontecer na máquina de outra pessoa — exceto que dá ligeiramente mais trabalho para o fornecedor fazer com que não.

Então fizemos o trabalho ligeiramente maior. O resultado: seu extrato bancário, sua tabela de salários, sua lista de clientes, seu contrato — qualquer PDF que esteja convertendo — fica no seu laptop. A página do Microapp carregou do nosso CDN; a conversão roda localmente; o .xlsx é montado localmente e oferecido como blob de download local. Zero tráfego de rede durante a conversão. Você pode verificar com DevTools. Não é uma promessa de marketing — é a arquitetura.

Ferramentas relacionadas

Ferramentas que combinam naturalmente com o Conversor PDF para Excel:

  • Extrair Texto de PDF — extrai prosa corrida de um PDF (ordem de leitura, não tabular). A escolha certa quando seu PDF não é tabular.
  • Extrair Imagens de PDF — extrai as fotos embutidas de um PDF na resolução original.
  • Dividir PDF — quebre um PDF muito grande em arquivos menores antes de converter (útil acima de 200 páginas).
  • Juntar PDFs — combine múltiplos PDFs em um só antes de converter (útil para lotear extratos mensais).
  • Excel para PDF — a direção reversa. Transforme uma pasta de volta em PDF.
  • Contagem de Páginas PDF — checagem rápida do tamanho de um PDF antes de converter.
  • Tarjar PDF — bloqueie campos sensíveis antes de compartilhar o PDF de origem.

Como o Microapp paga o aluguel: Membership anual para páginas limpas e trabalho de IA quase ao custo; não-Members ganham as mesmas ferramentas com anúncios. De qualquer jeito, 10% de cada dólar que o Microapp ganha vai para caridade — do topo, auditado, publicado trimestralmente. O Conversor PDF para Excel é um dos ~115 microapps construídos no mesmo padrão. Qualidade premium, para todos.

Perguntas frequentes

Como a tabela é de fato detectada?

Heurística de duas etapas nos fragmentos de texto que o PDF.js nos dá. Etapa um: agrupa fragmentos pela coordenada Y — fragmentos a cerca de 5pt um do outro verticalmente são tratados como a mesma linha. Etapa dois: dentro de cada linha, ordena fragmentos da esquerda para a direita e divide em colunas separadas onde o gap horizontal entre fragmentos adjacentes excede cerca de 8pt (mais largo que espaçamento entre palavras mas mais estreito que sarjetas típicas de tabela). É uma heurística, não mágica — funciona bem em tabelas reais, menos bem em texto que por acaso está em colunas.

Lida com células mescladas?

Não. PDFs não têm um conceito estrutural de "células mescladas" — eles têm texto visualmente posicionado numa página, e uma célula mesclada é só um fragmento único de texto que por acaso ocupa o que seriam duas posições de coluna. O conversor coloca esse fragmento numa célula (a mais à esquerda que ele sobrepõe). Se você precisa de células mescladas preservadas, terá que mesclar manualmente no Excel depois da conversão — mas pela nossa experiência, ferramentas downstream trabalham melhor com células não mescladas mesmo.

E se meu PDF tem várias páginas?

Você ganha uma aba por página na pasta de saída, nomeadas "Página 1", "Página 2", etc. Total de páginas com teto em 200 (mais alto que a extração de texto em 500 porque o passo de agrupar-e-escrever é mais pesado por página). Se seu PDF é mais longo, divida primeiro com nosso Dividir PDF e converta cada pedaço separadamente.

Como isto se compara ao Adobe Acrobat ou um conversor pago?

Adobe Acrobat (e ABBYY, Foxit, etc.) vêm com algoritmos de detecção de tabela em múltiplas passagens afinados por décadas — detecção de linha, fallback de OCR para tabelas digitalizadas, reconhecimento de cabeçalho, tratamento de nota de rodapé. São melhores em casos de borda: tabelas sem bordas, tabelas com células mescladas, PDFs digitalizados (que não lidamos de jeito nenhum — sem OCR). Para o caso comum — um PDF que é literalmente uma exportação de planilha, ou um relatório financeiro que é estruturalmente tabular — nossa ferramenta cobre 80% do caminho por US$ 0 e zero upload. Use o Adobe quando precisar dos 20% finais.

Meu PDF realmente não é enviado?

Correto. PDF.js (a biblioteca que o Firefox usa internamente para renderizar PDFs) roda no seu navegador. SheetJS (o codificador .xlsx) também roda no seu navegador. Seus bytes vão do sistema de arquivos para a memória do navegador para o download do .xlsx — nunca para um servidor. Confira a aba de rede do navegador durante a conversão: zero requisições de saída.

Por que meu PDF em prosa parece uma única coluna no Excel?

Porque é o que ele é, estruturalmente. Parágrafos de texto corrido não têm gaps horizontais largos o suficiente para disparar uma divisão de coluna — as palavras são separadas por espaços únicos, bem abaixo do nosso limite de 8pt. O conversor corretamente identifica cada linha como uma célula. Se você quer cada linha numa célula própria da coluna A, está funcionando — se quer as palavras divididas em colunas, você provavelmente quer Extrair Texto de PDF e depois um passo Texto-para-Colunas no próprio Excel.

E sobre PDFs digitalizados?

Não funciona — igual nossas outras ferramentas PDF. PDFs digitalizados são imagens de texto, não texto. Convertê-los exige OCR (Reconhecimento Óptico de Caracteres), que é uma operação fundamentalmente diferente e não algo que esta ferramenta faz. Passe o scan por uma ferramenta de OCR primeiro (Adobe Acrobat, Visualização do macOS ou Tesseract), salve o PDF com OCR e depois passe por aqui.

Qual o tamanho máximo de arquivo?

100 MB e 200 páginas. O passo de agrupar-e-codificar é pesado em memória; limitamos mais baixo que a ferramenta de contagem de páginas. Para PDFs realmente grandes, divida primeiro com o Dividir PDF.