Qué hace realmente la herramienta OCR PDF
Un PDF escaneado parece texto pero no lo es. Es una pila de imágenes de texto — bitmaps que tu cámara o escáner capturó, metidos dentro de un envoltorio PDF. Cuando pulsas Cmd-F para buscar, no pasa nada. Cuando seleccionas un párrafo, el cursor pasa por encima de los píxeles y no agarra nada. Eso es porque no hay texto en el archivo, solo la apariencia de texto. La herramienta OCR PDF lo arregla. Renderiza cada página a un canvas con pdfjs-dist, después ejecuta Tesseract.js — un port WebAssembly del motor Tesseract de código abierto — para leer los caracteres de vuelta desde los píxeles. Obtienes un archivo .txt real con las palabras reconocidas. Todo pasa en tu navegador. Tu escaneo nunca sale de la máquina.
Esa última parte es todo el punto. El OCR lleva dos décadas en línea; elige cualquiera de OnlineOCR.net, SmallPDF, iLovePDF, la versión web de Adobe Acrobat — todos lo harán. Cada uno de ellos sube tu documento primero. Eso está bien para un panfleto. No está bien para un contrato de préstamo firmado, un historial médico, el escaneo de un pasaporte, un formulario de inmigración, una declaración de impuestos, o cualquiera de las otras cosas que la gente realmente pasa por OCR. Tesseract ejecuta el mismo reconocimiento localmente; nosotros solo hicimos el envoltorio que permite a un navegador ejecutarlo.
Cómo usar la herramienta OCR PDF
La herramienta es una sola pantalla. Suelta un escaneo, elige un idioma, pulsa ejecutar.
- Suelta o elige un PDF escaneado. Hasta 50 MB y 100 páginas.
- Elige el idioma del documento. Inglés, español, alemán, francés, portugués, italiano y ruso están soportados hoy. El modelo del idioma (~5-10 MB) se descarga una vez por idioma y el navegador lo guarda en caché.
- Elige el DPI de renderizado. 200 DPI es lo recomendado. 300 DPI da la mejor precisión pero tarda más; 150 DPI es más rápido pero solo funciona bien en escaneos limpios.
- Pulsa Ejecutar OCR. El modelo carga (5-15 segundos la primera vez), después cada página se renderiza y se reconoce en orden. El progreso se muestra por página; puedes cancelar a media ejecución.
- Copia el texto reconocido o descárgalo como un .txt nombrado a partir de tu origen (p. ej.,
contrato-escaneado.pdf→contrato-escaneado.txt). La salida es UTF-8.
El único tráfico de red durante una ejecución es la primera descarga del modelo del idioma desde la CDN de Tesseract. Esa petición es un fetch de un archivo estático público — la misma que recibe todo el mundo — y no contiene datos del PDF en ninguna dirección. Después de que el modelo aterriza en la caché del navegador, la pestaña de red queda en silencio durante el resto de la ejecución, y en silencio para siempre en ejecuciones posteriores en el mismo idioma.
DPI e idioma — los dos botones que importan
Tesseract es un emparejador de patrones entrenado con formas de carácter. Dos cosas arruinan el emparejamiento de patrones: no suficientes píxeles y el alfabeto equivocado. El DPI controla lo primero. El idioma controla lo segundo.
| DPI de renderizado | Páginas por minuto | Precisión en escaneos limpios | Mejor para |
|---|---|---|---|
| 150 DPI | ~30-50 | 92-96% | Escaneos ya nítidos, texto de una columna, borradores rápidos |
| 200 DPI (por defecto) | ~20-30 | 96-99% | La mayoría de documentos — el punto óptimo entre velocidad y precisión |
| 300 DPI | ~10-15 | 97-99%+ | Fuentes pequeñas, letra fina, notas al pie, cualquier cosa que confiarás sin revisar |
Bajar de 150 DPI es un mal trato. Tesseract empieza a confundir glifos similares una vez que la altura del carácter cae por debajo de unos 30 píxeles — "rn" se lee como "m," "cl" se lee como "d," la L minúscula parece el número 1. Subir de 300 DPI rara vez ayuda y aproximadamente duplica el tiempo de ejecución — para entonces estás renderizando la página con más detalle del que el reconocedor puede usar.
El idioma importa más de lo que la gente espera. Tesseract cargado con el modelo inglés intentará reconocer una página en español, pero no sabe que ñ, í o á son letras — adivinará y fallará. Elige el idioma dominante del documento. Para un contrato en español con algunos nombres de marca en inglés salpicados, elige español; Tesseract acertará los nombres de marca aproximadamente y el cuerpo del texto exactamente. Para documentos con scripts mixtos (inglés junto a chino, árabe, hindi), Tesseract no es genial cambiando entre scripts sobre la marcha — avísanos si necesitas uno de esos y añadiremos el modelo al selector.
Un ejemplo trabajado con números reales
Toma un caso real: un PDF escaneado de 12 páginas de un expediente universitario de los años 80 — fuente de máquina de escribir, escaneo a 200 DPI, sin daño obvio, una columna, en inglés. El archivo es de 4,2 MB.
A 200 DPI / inglés, la ejecución tarda 28 segundos de extremo a extremo (después de que el modelo ya esté en caché de una sesión anterior). La salida es un archivo .txt de 6,8 KB. Comprobando la salida contra el original: 1.247 palabras en la página, 14 errores OCR en total. La mayoría fueron confusión "I" vs "l" vs "1" en la columna del ID de estudiante. Los nombres de curso salieron limpios. Las notas salieron limpias. El encabezado del expediente — el área del escudo de la escuela, donde el escaneo capturó parte del sello — fue la única zona con basura real. La limpieza manual tomó dos minutos en un editor de texto.
Mismo documento a 300 DPI: 51 segundos, 4 errores OCR. Mismo documento a 150 DPI: 18 segundos, 38 errores — visiblemente peor, los dígitos se llevaron lo peor. 200 DPI fue la elección correcta.
Ahora invierte la entrada: foto de móvil de una nota manuscrita de reunión, exportada como PDF. Tesseract devolvió un archivo casi vacío con algunos caracteres sueltos. Esa es la respuesta honesta — Tesseract fue entrenado en texto impreso por máquina y la escritura a mano es un problema distinto. No fingimos.
Cómo se compara esto con Adobe Acrobat, SmallPDF, iLovePDF
La comparación honesta: el OCR de Adobe Acrobat es mejor que el nuestro en entradas difíciles, y te lo decimos abiertamente.
Acrobat ejecuta Tesseract bajo el capó (o lo hizo históricamente — Adobe añadió su propio ML encima hace años) más una pila de pre-procesado: corrección de inclinación, ajuste de contraste, detección de líneas y un modelo de lenguaje post-OCR que captura errores comunes de reconocimiento. En un recibo arrugado fotografiado bajo luz fluorescente, Acrobat producirá texto usable donde Tesseract devuelve mazacote. Eso vale ~$20/mes si tu trabajo implica hacer OCR de entradas sucias del mundo real todo el día. En un escaneo limpio a 200-300 DPI de texto impreso por máquina en un idioma común, la brecha se cierra — Tesseract suele estar en 97%+, Acrobat suele estar en 99%+, y para la mayoría de usuarios la diferencia no justifica subir el documento.
SmallPDF e iLovePDF envuelven OCR del lado del servidor (la misma familia de motores) detrás de una cuota diaria de archivos gratis y un empujón hacia la suscripción recurrente. Funcionan. También mantienen tu PDF en sus servidores durante al menos unas horas, normalmente más según la política de retención que no leíste. Para escaneos sensibles, ese es el valor por defecto equivocado. Para un panfleto de marketing, no importa.
OnlineOCR.net y el OCR de PDF24 son el extremo de bajo coste de este mercado — funcionan, llenos de anuncios, con tope de tamaño de archivo, salida con marca de agua a menos que te registres. Son a lo que apuntamos cuando señalamos el escalón más bajo del Big Software. Nosotros somos el trato opuesto: más lento que nada (Tesseract es WASM mono-hilo, tu CPU hace el trabajo), sin subida, sin cuenta, sin cuota.
De qué depende un OCR limpio
El OCR es coincidencia de patrones sobre píxeles. El patrón tiene que ser visible. Cinco cosas conducen la precisión más que cualquier otra:
- Resolución de escaneo. 200-300 DPI es el suelo para un OCR fiable. Las fotos a 100 DPI desde un teléfono a menudo se ven bien para un humano y confunden a Tesseract — los trazos de las letras son demasiado pocos píxeles de ancho para que el reconocedor se enganche a una forma.
- Contraste. Tinta negra sobre papel blanco es lo mejor. Fotocopias borrosas de fotocopias, donde las letras se difuminan con el fondo de la página, bajan la precisión rápido. Ajusta el contraste en el software de tu escáner antes de guardar el PDF si puedes.
- Inclinación. Una página escaneada con un ángulo de 5° se lee peor que una recta. Acrobat des-inclina automáticamente; Tesseract no. Reescanea con la página más recta o rota en un visor primero.
- Fuente. Las fuentes de cuerpo modernas a 10-12pt hacen OCR limpio. Fuentes decorativas, blackletter, cuerpos muy finos o muy gruesos, tipografía display en mayúsculas, y escritura a mano son todos más difíciles.
- Fondo. Páginas blancas o color crema claro son fáciles. Páginas con marcas de agua pesadas, papel de seguridad (el fondo a rayas de un cheque, el fondo con patrón de un diploma) y papel envejecido con amarillamiento son todos ruido para el reconocedor.
El arreglo de mayor impacto en una ejecución OCR mala es reescanear a 300 DPI con el contraste subido. También es gratis.
Renderizar a texto no es lo mismo que extraer texto incrustado
Esta es la única cosa que la gente confunde consistentemente. Hay dos trabajos PDF-a-texto que suenan idénticos y no lo son.
Hacer OCR de la página (lo que hace esta herramienta): cada página se renderiza como un bitmap de alta resolución, después Tesseract reconoce caracteres a partir de esos píxeles. Funciona en PDF escaneados, PDF con foto de página, cualquier cosa donde el texto sea parte de una imagen. Lento, ligeramente impreciso, la única opción para PDF de solo imagen.
Extraer el texto incrustado (herramienta distinta): lee los objetos de texto almacenados dentro del PDF directamente. Funciona en cualquier PDF nacido de un procesador de textos, de "Guardar como PDF" de un navegador, LaTeX, InDesign — cualquier cosa que produjera el PDF a partir de texto real. Instantáneo, perfectamente preciso, pero no devuelve nada en escaneos porque no hay texto incrustado que extraer.
Si tu PDF ya tiene texto seleccionable — intenta resaltar una frase en cualquier visor de PDF — usa Extraer Texto del PDF en su lugar. Es más rápido y exacto. El OCR es para el caso donde no hay texto que extraer, solo píxeles que reconocer.
Qué es y qué no es Tesseract
Tesseract empezó como un proyecto de investigación en HP Labs en los años 80, se abrió como código abierto en 2005 y se convirtió en el motor OCR preferido de Google durante la siguiente década. La versión comunitaria que ejecutamos es el mismo motor que va dentro de innumerables herramientas de escritorio, distribuciones de Linux y tuberías de procesamiento de documentos. No es nuevo y no es mágico — es maduro, predecible y gratis.
En qué es bueno: texto impreso por máquina, alfabetos latino y cirílico modernos, fuentes de cuerpo en tamaños normales, libros, contratos, artículos, recibos escaneados, documentos mecanografiados. En qué es mediocre: fuentes pequeñas por debajo de 8pt, notación matemática, layouts de varias columnas (lo intenta, pero a veces entrelaza columnas), tablas (renderizadas como texto en orden de lectura, no como tabla). En qué es malo: escritura a mano (esencialmente indescifrable para él; la letra de imprenta muy ordenada ocasionalmente funciona pero espera errores fuertes), CAPTCHAs (intencionalmente), fuentes muy estilizadas, cualquier cosa donde los caracteres sean deliberadamente difíciles de leer.
Los OCR comerciales más nuevos — Google Cloud Vision, Microsoft Azure Document Intelligence, AWS Textract — superan a Tesseract en entradas difíciles porque usan modelos transformer modernos entrenados en datasets enormes. También cobran por página y requieren que envíes tu documento a una nube. Para la mayoría de documentos, la mayoría de los días, Tesseract en el navegador es el trato correcto.
Herramientas PDF relacionadas
La herramienta OCR PDF es una pieza de un toolset PDF más amplio. Unos cuantos vecinos que salen a menudo:
- Extraer Texto del PDF — usa esto primero si tu PDF ya tiene texto seleccionable. Instantáneo y exacto, sin necesidad de OCR.
- Extraer Imágenes del PDF — saca las fotos incrustadas de un PDF como archivos individuales. Trabajo distinto del OCR.
- PDF a PNG — renderiza cada página como una imagen sin pérdida. Útil cuando quieres las imágenes de página junto al texto reconocido.
- Dividir PDF — parte un PDF largo en trozos antes de hacer OCR. La herramienta OCR limita a 100 páginas por ejecución; para documentos más largos, divide primero.
- Comprimir PDF — si tu escaneo es enorme, comprimirlo primero no dañará la precisión OCR a 200 DPI y puede volver a poner el recuento de páginas bajo el límite por ejecución.
Microapp envía cada herramienta PDF del lado del navegador, con los mismos compromisos explicados en cada página. El 10% de cada dólar que Microapp gana va a obras benéficas, antes que nada, auditado trimestralmente — así que la herramienta que estás usando tiene que funcionar realmente sin publicidad estorbando.
Preguntas frecuentes
¿Cómo se compara esto con el OCR de Adobe Acrobat?
Honestamente: Acrobat es mejor en entradas difíciles. Acrobat usa Tesseract más una capa del ML propio de Adobe para corrección de inclinación, ajuste de contraste y post-procesado con modelos de lenguaje — maneja escaneos sucios (mala iluminación, páginas rotadas, bajo contraste, fuentes inusuales) de forma más fiable. Esta herramienta es Tesseract a secas. En escaneos limpios de texto impreso a 200-300 DPI en un idioma soportado, la brecha es pequeña y obtienes la ventaja de no subir tu documento. En escaneos difíciles, Acrobat gana. Preferimos decírtelo a sobrevender.
¿Qué idiomas soporta?
Hoy: inglés, español, alemán, francés, portugués, italiano y ruso. Cada idioma tiene su propio modelo Tesseract de ~5-10 MB que se descarga al primer uso y queda en caché después. Tesseract en sí soporta más de 100 idiomas — si necesitas uno que no esté en el selector (chino, japonés, árabe, hindi, etc.), avísanos y lo añadiremos. Los documentos multilingües funcionan mejor si eliges el idioma dominante; Tesseract no es genial cambiando entre scripts sobre la marcha.
¿Funciona con escritura a mano?
Casi nunca. Tesseract fue entrenado con texto impreso por máquina — fuentes, libros, documentos mecanografiados escaneados, señalización. La escritura cursiva es esencialmente indescifrable para él; la letra de imprenta muy ordenada ocasionalmente funciona pero espera errores fuertes. Para OCR de escritura a mano necesitas un modelo distinto (Google Cloud Vision y Microsoft Azure Document Intelligence ambos llevan modelos entrenados en escritura a mano). No pretenderemos que Tesseract pueda hacerlo.
¿Qué tan rápido es?
Dos fases. (1) Carga del modelo: 5-15 segundos la primera vez que eliges un idioma (el .traineddata de ~5-10 MB se descarga). En caché después, así que ejecuciones posteriores en el mismo navegador son instantáneas. (2) Reconocimiento: ~1-3 segundos por página a 200 DPI en un portátil moderno, ~3-8 segundos a 300 DPI. Un informe escaneado de 20 páginas a 200 DPI suele terminar en 30-60 segundos de extremo a extremo después de la primera ejecución. Hay un botón Cancelar si cambias de opinión a mitad de camino.
¿Mi PDF es realmente privado?
El PDF en sí nunca sale del navegador. pdfjs-dist renderiza páginas localmente; Tesseract.js ejecuta el OCR localmente vía WebAssembly. La única petición de red durante una ejecución es traer el modelo del idioma de la CDN de Tesseract (jsdelivr) la primera vez — y eso es solo la descarga de un archivo estático público, la misma que recibe todo el mundo, sin datos de tu PDF dentro. Revisa la pestaña Red del navegador durante el reconocimiento: tras cargar el modelo, cero peticiones salientes hasta que recargas la página.
¿Por qué el texto reconocido tiene errores?
El OCR es inherentemente imperfecto — es coincidencia de patrones sobre píxeles. La precisión depende mucho de la calidad de la entrada: escaneo limpio a 300 DPI de una tipografía de libro estándar con buen contraste = a menudo 98%+. Foto a 150 DPI de un recibo arrugado bajo luz fluorescente = mucho peor. Problemas comunes: confusión 'l' vs 'I' vs '1', 'O' vs '0', letras unidas en fuentes antiguas, columnas que se entrelazan, notas al pie mezcladas con el cuerpo. Revisa siempre la salida OCR antes de confiar en ella para uso legal, médico o financiero.
¿Puedo hacer OCR de un PDF que ya tiene texto?
Puedes, pero es la herramienta equivocada. Los PDF con texto incrustado (cualquier cosa exportada de Word, Google Docs, LaTeX o 'Guardar como PDF' desde un navegador) ya tienen texto seleccionable — ejecutar OCR sobre ellos vuelve a reconocer los glifos renderizados desde cero, lo cual es más lento y menos preciso que simplemente leer el texto que ya está ahí. Para esos, usa la herramienta Extraer Texto del PDF — es instantánea y exacta.
¿Añadiréis una salida PDF buscable?
Sí, ese es el plan de v2. La salida actual es un archivo .txt plano con las palabras reconocidas. Un 'PDF buscable' mantendría las imágenes originales de página pero añadiría una capa de texto invisible encima, para que puedas resaltar, seleccionar y Ctrl-F dentro del PDF como un documento de texto normal. Es una construcción más compleja (posicionar cada palabra reconocida en el x/y correcto de la página) y queríamos enviar la versión .txt honesta primero. El selector de salida muestra 'PDF buscable — próximamente' para que sepas que está planeado.
¿Cuál es el límite de tamaño de archivo?
50 MB y 100 páginas por ejecución. El OCR es mucho más pesado que la extracción de texto — cada página se renderiza a un canvas de alta resolución y se procesa a través de un modelo WASM — así que los límites son más estrictos que los de nuestras otras herramientas PDF. Para documentos más grandes, divide el PDF con nuestro Divisor de PDF y haz OCR de los trozos por separado. En un dispositivo de poca memoria (un móvil, un Chromebook con 4 GB de RAM), incluso 100 páginas a 300 DPI pueden quedarse sin memoria; baja a 200 DPI o divide en trozos más pequeños.