Qué hace el Convertidor PDF a Excel
Un PDF almacena texto como fragmentos posicionados — cada palabra conoce su ubicación (x, y) en la página, pero nada en el archivo sabe qué es una "fila" o una "columna". El Convertidor PDF a Excel mira esos fragmentos, los agrupa en filas por su coordenada Y, divide cada fila en columnas donde hay un hueco horizontal ancho y escribe el resultado en un libro .xlsx real. Una hoja por página del PDF. Ábrelo en Excel, Google Sheets, Numbers o LibreOffice Calc. Sin subida, sin marca de agua, sin registro.
Toda la tubería corre en tu navegador. PDF.js (la librería PDF de código abierto de Mozilla — la misma que Firefox usa internamente) lee tu PDF y nos pasa fragmentos de texto con coordenadas. SheetJS codifica el resultado en el formato binario .xlsx. Ambas librerías corren en tu CPU, en tu pestaña. Abre DevTools, cambia a la pestaña Red, pulsa Convertir. Cero peticiones salientes. Tus bytes no salen de tu máquina.
Una advertencia honesta de entrada: esto funciona bien en PDF que ya son tablas — informes financieros, estados de cuenta, exportaciones de una app de hoja, datos gubernamentales, adjuntos de reuniones de consejo. Funciona menos bien en PDF de prosa (un documento de una columna de texto colapsa a una sola columna de valores de celda, lo cual es correcto pero probablemente no lo que querías) y nada bien en PDF escaneados (imagen de texto, no texto — eso es un trabajo de OCR, ver más abajo). Saber qué hace y qué no hace la herramienta desde el principio te ahorra un minuto perdido.
Cuándo PDF a Excel es la herramienta correcta
Las tablas se quedan atrapadas en PDF cada día. Informes trimestrales, estados de cuenta bancarios, formularios de impuestos, facturas de proveedores, publicaciones de datos del gobierno, exportaciones de MIS internas, artículos académicos con tablas de resultados — donde quiera que una hoja viviera originalmente, alguien eventualmente decidió "compartir la versión PDF." Los números están justo ahí en la página; solo no están en un formato que puedas sumar, filtrar, ordenar o pivotar.
Situaciones reales donde esta herramienta compensa:
- Reconciliación de estados bancarios. Tu banco envía estados mensuales como PDF. Quieres las transacciones en una hoja para categorizarlas, sumar por comercio y pasarlas a tu contador. Las transacciones son una tabla en cada página del estado.
- Facturas de proveedores. Un proveedor envía 6 facturas al mes como PDF. Tu flujo de cuentas por pagar las necesita como filas en un libro para sumar por mes y reconciliar contra órdenes de compra.
- Datos de investigación. Una agencia gubernamental, un artículo académico o un informe sectorial publica una tabla clave de datos dentro de un informe PDF. La quieres en Excel para graficarla o unirla con tus propios datos.
- Informes de ventas de tu CRM. El CRM tiene un botón "Descargar como PDF" pero no "Descargar como Excel" — o solo en el plan de pago. El PDF tiene la tabla por la que de otra forma pagarías $20/usuario/mes para exportar distinto.
- Listas de clase o registros de asistencia. Una profesora o administrativo recibe una lista como PDF, la necesita en una hoja para tomar asistencia, calificar o compartir con sustitutos.
En cada caso, los datos subyacentes son tabulares — filas y columnas fijas — y el PDF es solo el envoltorio que alguien eligió. El convertidor quita el envoltorio y te devuelve la tabla.
Cómo usar el Convertidor PDF a Excel
Una pantalla. Zona de soltar arriba, un callout corto explicando qué funciona y qué no, un botón de convertir debajo.
- Suelta o elige tu PDF. Hasta 100 MB y 200 páginas.
- Lee el callout amarillo — te dice en qué tipo de PDF funciona esto (tablas) y en cuál no (prosa, escaneos, layouts complejos).
- Pulsa "Convertir a Excel." La herramienta lee cada página, agrupa los fragmentos de texto en una cuadrícula 2D y emite una hoja por página del PDF.
- Descarga el archivo .xlsx (nombrado a partir de tu PDF origen —
factura.pdf→factura.xlsx). Ábrelo en Excel, Google Sheets, Numbers o LibreOffice Calc. - Ojea el resultado. Los límites de columna son una mejor conjetura basada en huecos horizontales — si una división de columna cayó mal, arréglalo en tu app de hojas con Texto en Columnas o editando las celdas directamente.
Eso es todo. Sin "regístrate para desbloquear la conversión de más de 5 páginas." Sin tope de 10 MB en el nivel gratis. Sin marca de agua estampada sobre tus datos.
Cómo funciona realmente la detección de filas y columnas
Esta es la parte interesante, y vale la pena entenderla porque explica tanto las victorias como los modos de fallo.
PDF.js nos pasa una lista de fragmentos de texto por página. Cada fragmento tiene: la cadena que contiene, una posición x/y en la página (en puntos — 72 por pulgada) y un ancho. Una página típica son cientos o miles de fragmentos. Nuestro trabajo: convertir eso en una cuadrícula.
Paso uno — agrupar filas por Y. Los fragmentos cuyas coordenadas Y están dentro de unos 5 puntos entre sí se tratan como la misma fila. 5pt es aproximadamente media línea de texto de cuerpo, así que esto absorbe la variación natural de línea base en cualquier fila dada de la tabla mientras sigue separando una fila de la siguiente. El resultado es una lista ordenada de filas, de arriba a abajo.
Paso dos — dividir columnas por huecos en X. Dentro de cada fila, los fragmentos se ordenan de izquierda a derecha. Donde el hueco horizontal entre fragmentos adyacentes supera unos 8 puntos, insertamos un límite de columna. 8pt es más ancho que el espaciado típico entre palabras (un espacio son unos 3pt a tamaño de fuente 10pt) pero más estrecho que la separación que la mayoría de diseñadores de tablas usan entre columnas. Así que palabras adyacentes en la misma columna se quedan en la misma celda; columnas adyacentes se separan.
Ese es todo el algoritmo. Dos heurísticas afinadas a la forma en que las tablas reales están realmente dispuestas. Sin machine learning, sin API en la nube, sin sube-y-espera-a-nuestra-IA. Solo geometría. Funciona bien en tablas reales por la misma razón: las tablas reales son la geometría que está esperando.
Donde falla: una "tabla" que en realidad es una página multicolumna de prosa (piensa en un artículo de revista, un paper de conferencia a dos columnas) se dividirá en columnas por el detector de huecos en X. Eso es el algoritmo haciendo exactamente lo que se supone — hay huecos horizontales anchos entre los dos bloques de texto. Si querías la prosa de vuelta, usa Extraer Texto del PDF, que preserva el orden de lectura.
Alternativas del Big Software — y el trato que ofrece cada una
Tienes otras tres opciones para sacar tablas de un PDF, y cada una viene con su propio impuesto.
Adobe Acrobat Pro ($19,99/mes, o $239,88/año) es el estándar de oro. Tiene una tubería real de detección de tablas afinada durante décadas — detección de líneas, OCR de respaldo para tablas escaneadas, reconocimiento de encabezados, manejo de notas al pie. Para PDF sin estructura obvia de tabla (sin bordes, celdas combinadas, layouts irregulares), es mejor que nosotros. El precio es el precio: una suscripción mensual perpetua tanto si conviertes 100 PDFs al mes como si conviertes uno. La mayoría de gente que tiene Acrobat lo usa para un 5% de lo que hace.
iLovePDF, SmallPDF, PDF24, ABBYY FineReader Online, Convertio — la multitud del "sube primero." Toman tu PDF, lo envían a un servidor en algún sitio, ejecutan una conversión ahí, te devuelven un .xlsx. Misma calidad de conversión que la nuestra en los casos fáciles; a veces mejor en los casos difíciles (algunos hacen OCR de tablas escaneadas; nosotros no). El trato: tu PDF ahora está en el servidor de alguien. Para un PDF de dataset público, a quién le importa. Para un estado de cuenta bancario, una tabla de salarios, un contrato con partidas, un documento de RR. HH. — acabas de enviarlo por correo a un extraño y confiar en que lo borren. Más límites de uso (SmallPDF te capa a 2 conversiones antes del registro; Sejda a 3/hora) y un mensaje de Plan Pro en cada página.
"Copiar y pegar del PDF en Excel." Pruébalo una vez en una tabla multi-columna y mira cómo las columnas colapsan en una sola columna de valores de celda. El copiar-pegar de PDF preserva el texto pero descarta el layout — es exactamente el problema que nuestra detección de columnas fue construida para resolver. Funciona bien para una lista de una columna. Se desmorona en cualquier cosa más ancha.
El pitch del Big Software siempre es: la conversión es "¡gratis!" pero la experiencia está cerrada. Nivel gratis topado a 2 archivos, 10 páginas cada uno, con marca de agua. El nivel Pro desbloquea el resto. Regístrate para quitar el tope. Suscríbete para quitar la marca de agua. Estamos peleando contra ese modelo a propósito. El navegador hace el trabajo. No hay coste marginal para nosotros. Así que no hay precio marginal para ti. "Hay una solución para todo" no significa "hay una solución de pago para todo."
Ejemplo trabajado: un estado bancario de 6 páginas
Estás reconciliando gastos del trimestre. Tu banco envía un estado mensual como PDF. Seis páginas, tres estados en una carpeta. Cada estado tiene un encabezado (página 1 con información de cuenta, resumen), tres páginas de transacciones en una tabla de 5 columnas (fecha, descripción, débito, crédito, saldo) y una página final de letra pequeña.
Qué pasa cuando sueltas un estado en el convertidor:
- Sueltas
estado-2026-04.pdfen la zona de soltar. El widget muestra el recuento de páginas (6) y un botón Convertir. - Pulsas Convertir a Excel. Unos 2 segundos después, la descarga se activa.
- Abres
estado-2026-04.xlsx. Tiene seis hojas: "Page 1", "Page 2", ..., "Page 6". - Página 1 tiene el encabezado de cuenta — nombre, dirección, número de cuenta — agrupados en filas aproximadas. No muy útil como tabla, pero fiel a lo que hay en la página.
- Páginas 2–4 son las transacciones. Cada fila tiene 5 columnas: fecha, descripción, débito, crédito, saldo. La fila de encabezado del PDF del banco es la primera fila de cada hoja.
- Páginas 5–6 son los totales y la letra pequeña. Mayormente inútiles para reconciliación; ignóralas.
Seleccionas las páginas 2–4, copias las filas, las pegas en tu libro maestro. Cinco segundos de limpieza — un par de celdas débito/crédito donde el PDF del banco usó una convención de espaciado extraña y nuestro detector de columnas las dividió ligeramente distinto. Clic, clic, hecho. Repite para los otros dos estados. Tiempo total: unos 5 minutos. El mismo trabajo a través de Adobe Acrobat sería aproximadamente el mismo tiempo, más una suscripción de $19,99. A través de SmallPDF: paso de subida más lento, más los datos del banco están ahora en el servidor de SmallPDF.
Qué preserva, qué no
Sentar expectativas honestas evita frustración. Esto es lo que sobrevive a la conversión y lo que no:
| Característica | Qué pasa |
|---|---|
| Texto y números de celda | Preservados exactamente como los lee PDF.js |
| Orden de filas | Preservado (de arriba a abajo de cada página) |
| Orden de columnas | Preservado (de izquierda a derecha de cada fila) |
| Fila de encabezado | Se convierte en la primera fila de la hoja (sin estado especial de "encabezado") |
| Tablas multi-página | Una hoja por página — la tabla se divide entre hojas, recombinarías en Excel |
| Celdas combinadas | Mejor esfuerzo: el valor va en la celda más a la izquierda de la combinación |
| Bordes, colores, fuentes | Eliminados — solo valores |
| Fórmulas | No aplica — los PDF no llevan fórmulas, solo valores computados |
| Tablas escaneadas | No funciona — sin OCR. Los PDF de imagen salen vacíos. |
| Layout de página multi-columna (p. ej., columnas de revista) | Ambas columnas acaban lado a lado en la hoja — normalmente no lo que quieres |
| Imágenes incrustadas en celdas | Eliminadas — ver Extraer Imágenes del PDF para esas |
Si un límite de columna cae mal en tu PDF particular — digamos que el convertidor unió dos columnas que deberían haberse separado porque su hueco horizontal era de 6pt en lugar de 8pt — el arreglo está en Excel, no en nuestra herramienta. Selecciona la columna, Datos → Texto en Columnas → Ancho Fijo → arrastra el límite al lugar correcto. 30 segundos. La alternativa — construir una interfaz para que los usuarios arrastren manualmente los límites de columna en nuestro widget — duplicaría la complejidad de la herramienta para el 5% de conversiones donde ayudaría. La Promesa de Simplicidad dice: haz un solo trabajo. Lo hacemos.
Sobre PDF escaneados y OCR
El reporte de "la herramienta no funcionó" más común en cualquier convertidor de PDF es: solté un escaneo y el resultado estaba vacío. Aquí está el porqué y qué hacer.
Un PDF escaneado es una imagen de una página envuelta en metadatos de PDF. No hay texto dentro — cada "letra" es un patrón de píxeles. PDF.js, al pedírsele extraer texto de un escaneo, encuentra cero fragmentos de texto y no nos pasa nada. Así que nuestro detector de filas/columnas no tiene nada que agrupar, y la salida .xlsx queda vacía. Esto no es un bug que podamos arreglar en esta herramienta; es que la entrada es un tipo distinto de objeto del que la herramienta lee.
Qué hacer: hazle OCR al PDF primero. El Reconocimiento Óptico de Caracteres convierte los píxeles de vuelta en fragmentos de texto — una vez hecho eso, tienes un PDF "real" con texto extraíble, y el convertidor funcionará. Opciones:
- Adobe Acrobat Pro tiene OCR incorporado (Herramientas → Reconocer Texto). Ejecútalo, guarda, después pasa el resultado por aquí.
- Vista Previa de macOS auto-OCR de PDFs cuando los abres en versiones recientes de macOS. Guarda una copia.
- Tesseract (código abierto, línea de comandos) — instálalo vía Homebrew o apt, ejecútalo sobre tu PDF.
- Google Drive — sube, "Abrir con Google Docs," y Drive hace OCR del contenido. Nota de privacidad: tu PDF está ahora en Google.
Podemos añadir una herramienta de OCR en el navegador más adelante (tesseract.js funciona en navegador, solo lento), pero es una operación sustancialmente distinta a la extracción basada en texto y merece su propia herramienta.
La privacidad es toda la razón por la que esto existe en el navegador
La razón por la que los convertidores PDF a Excel son mayormente basados en la nube es simple: es más fácil para el proveedor ejecutar la conversión en su servidor que enviar un parser PDF rápido al navegador de cada usuario. El trato de privacidad del usuario — "danos tu PDF, prometemos borrarlo" — es el coste de la elección de ingeniería más fácil.
Microapp eligió la opción de ingeniería más difícil a propósito. PDF.js corre en tu navegador, rápido, en cualquier dispositivo moderno. SheetJS corre en tu navegador, rápido, en cualquier dispositivo moderno. No hay razón para que la conversión tenga que pasar en la máquina de otra persona — excepto que es ligeramente más trabajo para el proveedor hacer que no.
Así que hicimos el trabajo ligeramente extra. El resultado: tu estado bancario, tu tabla de salarios, tu lista de clientes, tu contrato — el PDF que estés convirtiendo — se queda en tu portátil. La página de Microapp cargó desde nuestra CDN; la conversión corre localmente; el .xlsx se construye localmente y se ofrece como un blob de descarga local. Cero tráfico de red durante la conversión. Puedes verificarlo con DevTools. Eso no es una promesa de marketing — es la arquitectura.
Herramientas relacionadas
Herramientas que combinan naturalmente con el Convertidor PDF a Excel:
- Extraer Texto del PDF — saca prosa de un PDF (orden de lectura, no tabular). La elección correcta cuando tu PDF no es tabular.
- Extraer Imágenes del PDF — saca las fotos incrustadas de un PDF a su resolución original.
- Dividir PDF — parte un PDF muy grande en archivos más pequeños antes de convertir (útil pasadas las 200 páginas).
- Unir PDF — combina varios PDFs en uno antes de convertir (útil para agrupar estados mensuales).
- Excel a PDF — la dirección inversa. Convierte un libro de vuelta en un PDF.
- Conteo de Páginas PDF — comprobación rápida de la longitud de un PDF antes de convertir.
- Redactar PDF — tacha campos sensibles antes de compartir el PDF origen.
Cómo paga Microapp el alquiler: membresía anual para páginas limpias y trabajo con IA cerca del coste; los no-Members tienen las mismas herramientas con publicidad. De cualquier forma, el 10% de cada dólar que Microapp gana va a obras benéficas — antes que nada, auditado, publicado trimestralmente. El Convertidor PDF a Excel es una de unas 115 microapps construidas al mismo estándar. Calidad premium, para todos.
Preguntas frecuentes
¿Cómo se detecta realmente la tabla?
Heurística de dos pasos sobre los fragmentos de texto que PDF.js nos da. Paso uno: agrupar fragmentos por coordenada Y — los fragmentos dentro de unos 5pt verticalmente se tratan como la misma fila. Paso dos: dentro de cada fila, ordenar fragmentos de izquierda a derecha y dividir en columnas separadas donde el hueco horizontal entre fragmentos adyacentes supere unos 8pt (más ancho que el espaciado entre palabras pero más estrecho que las separaciones típicas de columna). Es una heurística, no magia — funciona bien en tablas reales, menos en texto que solo está dispuesto en columnas.
¿Maneja celdas combinadas?
No. Los PDF no tienen un concepto estructural de "celdas combinadas" — tienen texto posicionado visualmente en una página, y una celda combinada es solo un único fragmento de texto que abarca lo que serían dos posiciones de columna. El convertidor coloca ese fragmento en una celda (la más a la izquierda con la que se solapa). Si necesitas que las celdas combinadas se preserven, tendrás que combinarlas manualmente en Excel después de la conversión — pero en nuestra experiencia, las herramientas aguas abajo funcionan mejor con celdas sin combinar de todos modos.
¿Qué pasa si mi PDF tiene varias páginas?
Obtienes una hoja por página en el libro de salida, nombrada "Page 1", "Page 2", etc. El total de páginas está topado en 200 (más alto que el límite de 500 de la extracción de texto porque el paso de agrupar y escribir es más pesado por página). Si tu PDF es más largo, divídelo primero con nuestro Divisor de PDF y convierte cada trozo por separado.
¿Cómo se compara esto con Adobe Acrobat o un convertidor de pago?
Adobe Acrobat (y ABBYY, Foxit, etc.) llevan algoritmos de detección de tabla multi-pasada afinados durante décadas — detección de líneas, OCR de respaldo para tablas escaneadas, reconocimiento de encabezados, manejo de notas al pie. Son mejores en casos límite: tablas sin bordes, tablas con celdas combinadas, PDF escaneados (que nosotros no manejamos en absoluto — sin OCR). Para el caso común — un PDF que es literalmente una exportación de una hoja, o un informe financiero estructuralmente tabular — nuestra herramienta llega al 80% por $0 y cero subida. Usa Adobe cuando necesites el último 20%.
¿Mi PDF realmente no se sube?
Correcto. PDF.js (la librería que Firefox usa internamente para renderizar PDF) corre en tu navegador. SheetJS (el codificador .xlsx) también corre en tu navegador. Tus bytes van desde tu sistema de archivos a la memoria del navegador a la descarga del .xlsx — nunca a un servidor. Revisa la pestaña de red del navegador durante la conversión: cero peticiones salientes.
¿Por qué mi PDF de prosa parece una sola columna en Excel?
Porque eso es lo que es, estructuralmente. Los párrafos de texto corrido no tienen huecos horizontales suficientemente anchos para disparar una división de columna — las palabras están separadas por huecos de un solo espacio, muy por debajo de nuestro umbral de 8pt. El convertidor correctamente identifica cada línea como una celda. Si quieres cada línea en su propia celda de la columna A, esto realmente está funcionando — si quieres las palabras divididas en columnas, probablemente quieres Extraer Texto del PDF y luego un paso de Texto en Columnas en Excel.
¿Y los PDF escaneados?
No funciona — igual que nuestras otras herramientas PDF. Los PDF escaneados son imágenes de texto, no texto. Convertirlos requiere OCR (Reconocimiento Óptico de Caracteres), que es una operación fundamentalmente distinta y no algo que esta herramienta hace. Pasa el escaneo primero por una herramienta de OCR (Adobe Acrobat, Vista Previa de macOS o Tesseract), guarda el PDF con OCR, después pásalo por aquí.
¿Cuál es el tamaño máximo de archivo?
100 MB y 200 páginas. El paso de agrupar y codificar consume memoria; lo capamos más bajo que la herramienta de conteo de páginas. Para PDF realmente grandes, divide primero con el Divisor de PDF.