Was das PDF-OCR-Tool tatsächlich macht
Ein gescanntes PDF sieht wie Text aus, ist aber keiner. Es ist ein Stapel Bilder von Text — Bitmaps, die deine Kamera oder dein Scanner erfasst hat, in einen PDF-Wrapper gestopft. Wenn du Cmd-F drückst, um zu suchen, passiert nichts. Wenn du einen Absatz auswählst, fegt der Cursor über die Pixel und greift nichts. Das liegt daran, dass es keinen Text in der Datei gibt, nur die Erscheinung von Text. Das PDF-OCR-Tool repariert das. Es rendert jede Seite mit pdfjs-dist auf eine Leinwand, dann läuft Tesseract.js — ein WebAssembly-Port der Open-Source-Tesseract-Engine — um die Zeichen wieder aus den Pixeln herauszulesen. Du bekommst eine echte .txt-Datei mit den erkannten Wörtern. Alles passiert in deinem Browser. Dein Scan verlässt den Rechner nie.
Dieser letzte Teil ist der ganze Punkt. OCR gibt es seit zwei Jahrzehnten online; wähl irgendeines von OnlineOCR.net, SmallPDF, iLovePDF, Adobe Acrobats Web-Version — sie machen es alle. Jedes davon lädt zuerst dein Dokument hoch. Das ist okay für ein Flugblatt. Es ist nicht okay für eine unterschriebene Kreditvereinbarung, eine medizinische Akte, einen Passscan, ein Einwanderungsformular, eine Steuererklärung oder irgendeines der anderen Dinge, die Leute tatsächlich OCRen. Tesseract läuft dieselbe Erkennung lokal; wir haben nur den Wrapper gemacht, der einen Browser sie laufen lässt.
So nutzt du das PDF-OCR-Tool
Das Tool ist ein Bildschirm. Zieh einen Scan rein, wähl eine Sprache, klick auf ausführen.
- Zieh ein gescanntes PDF rein oder wähl es aus. Bis zu 50 MB und 100 Seiten.
- Wähl die Dokumentsprache. Englisch, Spanisch, Deutsch, Französisch, Portugiesisch, Italienisch und Russisch werden heute unterstützt. Das Sprachmodell (~5-10 MB) lädt einmal pro Sprache und der Browser cacht es.
- Wähl die Render-DPI. 200 DPI empfohlen. 300 DPI gibt die beste Genauigkeit, dauert aber länger; 150 DPI ist schneller, funktioniert aber nur gut bei sauberen Scans.
- Klick auf OCR ausführen. Das Modell lädt (5-15 Sekunden beim ersten Mal), dann wird jede Seite der Reihe nach gerendert und erkannt. Fortschritt zeigt pro Seite; du kannst mitten im Lauf abbrechen.
- Kopier den erkannten Text oder lade ihn als .txt herunter, benannt nach deiner Quelle (z. B.
contract-scan.pdf→contract-scan.txt). Output ist UTF-8.
Der einzige Netzwerkverkehr während eines Laufs ist der erste Sprachmodell-Download von Tesseracts CDN. Diese Anfrage ist ein öffentlicher statischer Datei-Fetch — derselbe, den alle bekommen — und enthält keine PDF-Daten in beide Richtungen. Nachdem das Modell im Browser-Cache landet, ist der Netzwerk-Tab für den Rest des Laufs still und für nachfolgende Läufe in derselben Sprache für immer still.
DPI und Sprache — die zwei Knöpfe, die zählen
Tesseract ist ein Muster-Abgleicher, trainiert auf Zeichenformen. Zwei Dinge zerstören Mustererkennung: nicht genug Pixel und das falsche Alphabet. DPI steuert das erste. Sprache steuert das zweite.
| Render-DPI | Seiten pro Minute | Genauigkeit bei sauberen Scans | Am besten für |
|---|---|---|---|
| 150 DPI | ~30-50 | 92-96 % | Schon scharfe Scans, einspaltiger Body-Text, schnelle Entwürfe |
| 200 DPI (Standard) | ~20-30 | 96-99 % | Die meisten Dokumente — der Sweet Spot für Geschwindigkeit und Genauigkeit |
| 300 DPI | ~10-15 | 97-99 %+ | Kleine Schriften, Kleingedrucktes, Fußnoten, alles, dem du ohne Korrekturlesen vertraust |
Unter 150 DPI zu gehen ist ein schlechter Deal. Tesseract beginnt ähnliche Glyphen zu verwechseln, sobald die Zeichenhöhe unter etwa 30 Pixel fällt — „rn" liest sich als „m", „cl" liest sich als „d", Kleinbuchstabe L sieht aus wie die Ziffer 1. Über 300 DPI zu gehen hilft selten und verdoppelt etwa die Laufzeit — dann renderst du die Seite in mehr Detail als der Erkenner nutzen kann.
Sprache zählt mehr als Leute erwarten. Tesseract, geladen mit dem englischen Modell, wird versuchen, eine spanische Seite zu erkennen, aber es weiß nicht, dass ñ, í oder á Buchstaben sind — es rät bei ihnen und verfehlt. Wähl die dominante Sprache des Dokuments. Für einen spanischen Vertrag mit ein paar englischen Markennamen eingestreut, wähl Spanisch; Tesseract wird die Markennamen ungefähr richtig hinkriegen und den Body-Text exakt richtig. Für gemischt-skript Dokumente (Englisch neben Chinesisch, Arabisch, Hindi) ist Tesseract nicht gut darin, im Fluss zwischen Schriften zu wechseln — sag Bescheid, wenn du eines davon brauchst, und wir fügen das Modell zum Picker hinzu.
Ein durchgerechnetes Beispiel mit echten Zahlen
Nimm einen echten Fall: ein 12-seitiges gescanntes PDF eines Universitäts-Transkripts aus den 1980ern — Schreibmaschinen-Schrift, 200 DPI Scan, kein offensichtlicher Schaden, einspaltig, Englisch. Die Datei ist 4,2 MB.
Bei 200 DPI / Englisch dauert der Lauf 28 Sekunden Ende-zu-Ende (nachdem das Modell aus einer früheren Sitzung schon gecacht ist). Der Output ist eine 6,8 KB .txt-Datei. Stichprobenprüfung des Outputs gegen das Original: 1.247 Wörter auf der Seite, 14 OCR-Fehler insgesamt. Die meisten waren „I" vs. „l" vs. „1"-Verwechslung in der Studierenden-ID-Spalte. Kursnamen kamen sauber raus. Noten kamen sauber raus. Der Transkript-Header — die Schul-Wappen-Region, wo der Scan etwas vom Siegel erfasst hat — war die einzige Zone mit echtem Müll. Manuelle Bereinigung dauerte zwei Minuten in einem Texteditor.
Dasselbe Dokument bei 300 DPI: 51 Sekunden, 4 OCR-Fehler. Dasselbe Dokument bei 150 DPI: 18 Sekunden, 38 Fehler — sichtbar schlechter, die Ziffern wurden hart getroffen. 200 DPI war die richtige Wahl.
Jetzt dreh den Input um: ein Handy-Foto einer handgeschriebenen Sitzungsnotiz, als PDF exportiert. Tesseract gab eine größtenteils leere Datei mit ein paar verirrten Zeichen zurück. Das ist die ehrliche Antwort — Tesseract wurde auf maschinengedrucktem Text trainiert und Handschrift ist ein anderes Problem. Wir tun nicht so, als ob.
Wie das verglichen mit Adobe Acrobat, SmallPDF, iLovePDF ist
Der ehrliche Vergleich: Adobe Acrobats OCR ist besser als unsere bei harten Inputs, und wir sagen dir das offen.
Acrobat läuft Tesseract unter der Haube (oder tat es historisch — Adobe schichtete vor Jahren ihre eigene ML darüber) plus einen Stapel Vorverarbeitung: Entzerren, Kontrastkorrektur, Linienerkennung und ein Nach-OCR-Sprachmodell, das häufige Erkennungsfehler abfängt. Bei einer zerknitterten Quittung, fotografiert unter Leuchtstoffröhren, wird Acrobat brauchbaren Text produzieren, wo Tesseract Brei zurückgibt. Das ist ~20 $/Monat wert, wenn dein Job darin besteht, unsaubere reale Inputs den ganzen Tag zu OCRen. Bei einem sauberen 200-300-DPI-maschinengedruckten Scan in einer gängigen Sprache schließt sich die Lücke — Tesseract ist oft 97 %+, Acrobat ist oft 99 %+, und für die meisten Nutzer rechtfertigt der Unterschied das Hochladen des Dokuments nicht.
SmallPDF und iLovePDF wrappen server-seitige OCR (dieselbe Familie von Engines) hinter einem täglichen kostenlosen Datei-Kontingent und einem wiederkehrenden Abo-Schubs. Sie funktionieren. Sie halten dein PDF auch mindestens ein paar Stunden auf ihren Servern, meist länger je nach Aufbewahrungsrichtlinie, die du nicht gelesen hast. Für sensible Scans ist das der falsche Standard. Für ein Marketing-Flyer ist es egal.
OnlineOCR.net und PDF24s OCR sind das billig-anmutende Ende dieses Markts — funktioniert, werbe-überladen, datei-größen-gekappt, Output mit Wasserzeichen, außer du meldest dich an. Das meinen wir, wenn wir auf Big Softwares unterstes Regal zeigen. Wir sind der entgegengesetzte Deal: langsamer als nichts (Tesseract ist single-threaded WASM, deine CPU macht die Arbeit), kein Upload, kein Konto, kein Kontingent.
Worauf saubere OCR ankommt
OCR ist Mustererkennung auf Pixeln. Das Muster muss sichtbar sein. Fünf Dinge treiben die Genauigkeit mehr als alles andere:
- Scan-Auflösung. 200-300 DPI ist die Untergrenze für zuverlässige OCR. 100-DPI-Fotos von einem Handy sehen für einen Menschen oft okay aus und verwirren Tesseract — die Buchstabenstriche sind zu wenige Pixel breit, als dass der Erkenner eine Form festklemmen könnte.
- Kontrast. Schwarze Tinte auf weißem Papier ist am besten. Verblasste Fotokopien von Fotokopien, wo Buchstaben in den Seitenhintergrund verschwimmen, lassen die Genauigkeit schnell fallen. Stell den Kontrast in deiner Scanner-Software ein, bevor du das PDF speicherst, wenn du kannst.
- Schräge. Eine Seite, gescannt in einem 5°-Winkel, liest sich schlechter als eine gerade. Acrobat entzerrt automatisch; Tesseract nicht. Neu scannen mit gerader Seite oder vorher in einem Viewer drehen.
- Schrift. Moderne Body-Schriften bei 10-12 pt OCRen sauber. Dekorative Schriften, Fraktur, sehr dünne oder sehr fette Schnitte, Großbuchstaben-Display-Type und Handschrift sind alle schwerer.
- Hintergrund. Durchgehend weiße oder hellcreme Seiten sind einfach. Stark mit Wasserzeichen versehene Seiten, Sicherheitspapier (der gemusterte Hintergrund auf einem Scheck, der gemusterte Hintergrund auf einem Diplom) und gealtertes Papier mit Bräunung sind alle Rauschen für den Erkenner.
Der einzige Schritt mit höchstem Hebel bei einem schlechten OCR-Lauf ist ein erneutes Scannen bei 300 DPI mit aufgedrehtem Kontrast. Er ist auch kostenlos.
Render zu Text ist nicht dasselbe wie eingebetteten Text extrahieren
Das ist die eine Sache, die Leute konsistent falsch verstehen. Es gibt zwei PDF-zu-Text-Jobs, die identisch klingen und es nicht sind.
Die Seite OCRen (was dieses Tool macht): Jede Seite wird als hochauflösende Bitmap gerendert, dann erkennt Tesseract Zeichen aus diesen Pixeln. Funktioniert bei gescannten PDFs, Foto-von-Seite-PDFs, allem, wo der Text Teil eines Bildes ist. Langsam, leicht ungenau, die einzige Option für reine Bild-PDFs.
Den eingebetteten Text extrahieren (anderes Tool): Liest die Text-Objekte, die im PDF gespeichert sind, direkt. Funktioniert bei jedem PDF, das aus einer Textverarbeitung, einem Browser-„Als PDF speichern", LaTeX, InDesign geboren wurde — allem, was das PDF aus echtem Text erzeugt hat. Sofort, perfekt genau, gibt aber bei Scans nichts zurück, weil es keinen eingebetteten Text zum Extrahieren gibt.
Wenn dein PDF bereits auswählbaren Text hat — versuch, einen Satz in einem PDF-Viewer zu markieren — nutz Text aus PDF extrahieren stattdessen. Es ist schneller und exakt. OCR ist für den Fall, wo es keinen Text zum Extrahieren gibt, nur Pixel zum Erkennen.
Was Tesseract ist und nicht ist
Tesseract begann als Forschungsprojekt bei HP Labs in den 1980ern, wurde 2005 Open-Source und wurde für das nächste Jahrzehnt Googles bevorzugte OCR-Engine. Die Community-Version, die wir laufen, ist dieselbe Engine, die in unzähligen Desktop-Tools, Linux-Distributionen und Dokumenten-Verarbeitungs-Pipelines steckt. Es ist nicht neu und es ist nicht magisch — es ist reif, vorhersehbar und kostenlos.
Wofür es gut ist: maschinengedruckter Text, moderne lateinische und kyrillische Alphabete, Body-Schriften in normalen Größen, Bücher, Verträge, Artikel, gescannte Quittungen, schreibmaschinen-getippte Dokumente. Wofür es mittelmäßig ist: kleine Schriften unter 8 pt, mathematische Notation, mehrspaltige Layouts (es versucht es, aber verschachtelt manchmal Spalten), Tabellen (gerendert als Text in Leserichtung, nicht als Tabelle). Wofür es schlecht ist: Handschrift (im Wesentlichen unentzifferbar; sehr ordentliches Hand-Drucken funktioniert gelegentlich, aber rechne mit schweren Fehlern), CAPTCHAs (absichtlich), stark stilisierte Schriften, alles, wo die Zeichen absichtlich schwer zu lesen sind.
Die neueren kommerziellen OCRs — Google Cloud Vision, Microsoft Azure Document Intelligence, AWS Textract — schlagen Tesseract bei harten Inputs, weil sie moderne Transformer-Modelle nutzen, trainiert auf enormen Datensätzen. Sie verlangen auch pro Seite und verlangen, dass du dein Dokument in eine Cloud schickst. Für die meisten Dokumente, die meisten Tage, ist Tesseract im Browser der richtige Deal.
Verwandte PDF-Tools
Das PDF-OCR-Tool ist eine Kachel in einem größeren PDF-Toolset. Ein paar Nachbarn, die oft auftauchen:
- Text aus PDF extrahieren — nutz das zuerst, wenn dein PDF bereits auswählbaren Text hat. Sofort und exakt, kein OCR nötig.
- PDF-Bilder extrahieren — zieh die eingebetteten Fotos aus einem PDF als einzelne Dateien. Anderer Job als OCR.
- PDF zu PNG — render jede Seite als verlustfreies Bild. Nützlich, wenn du die Seitenbilder neben dem erkannten Text willst.
- PDF teilen — zerlege ein langes PDF in Stücke vor dem OCRen. Das OCR-Tool ist auf 100 Seiten pro Lauf gekappt; für längere Dokumente zuerst teilen.
- PDF komprimieren — wenn dein Scan riesig ist, schadet es nicht, ihn zuerst zu komprimieren, bei 200 DPI verliert es keine OCR-Genauigkeit und könnte die Seitenzahl unter das Pro-Lauf-Limit bringen.
Microapp liefert jedes PDF-Tool browser-seitig, mit denselben Trade-offs auf jeder Seite ausbuchstabiert. 10 % von jedem Dollar, den Microapp verdient, gehen an Wohltätigkeit, vorab, quartalsweise auditiert — also muss das Tool, das du nutzt, tatsächlich funktionieren, ohne dass Werbung im Weg ist.
Häufig gestellte Fragen
Wie ist das verglichen mit Adobe Acrobats OCR?
Ehrlich: Acrobat ist bei harten Inputs besser. Acrobat nutzt Tesseract plus eine Schicht von Adobes eigener ML für Entzerrung, Kontrastkorrektur und Sprachmodell-Nachbearbeitung — es handhabt unsaubere Scans (schlechte Beleuchtung, rotierte Seiten, niedriger Kontrast, ungewöhnliche Schriften) zuverlässiger. Dieses Tool ist reines Tesseract. Bei sauberen maschinengedruckten Scans bei 200-300 DPI in einer unterstützten Sprache ist die Lücke klein und du bekommst den Vorteil, dein Dokument nicht hochzuladen. Bei harten Scans gewinnt Acrobat. Wir sagen dir das lieber, als es zu überverkaufen.
Welche Sprachen unterstützt es?
Heute: Englisch, Spanisch, Deutsch, Französisch, Portugiesisch, Italienisch und Russisch. Jede Sprache hat ihr eigenes ~5-10 MB Tesseract-Modell, das beim ersten Gebrauch heruntergeladen und danach gecacht wird. Tesseract selbst unterstützt 100+ Sprachen — wenn du eine brauchst, die nicht im Picker ist (Chinesisch, Japanisch, Arabisch, Hindi etc.), sag Bescheid und wir fügen sie hinzu. Mehrsprachige Dokumente funktionieren am besten, wenn du die dominante Sprache wählst; Tesseract ist nicht gut darin, im Fluss zwischen Schriften zu wechseln.
Funktioniert es bei Handschrift?
Fast nie. Tesseract wurde auf maschinengedrucktem Text trainiert — Schriften, Bücher, gescannte Schreibmaschinen-Dokumente, Beschilderung. Verbundene Handschrift ist für ihn im Wesentlichen unentzifferbar; sehr ordentlich von Hand gedruckter Text funktioniert gelegentlich, aber du solltest mit schweren Fehlern rechnen. Für Handschrift-OCR brauchst du ein anderes Modell (Google Cloud Vision und Microsoft Azure Document Intelligence liefern beide handschrift-trainierte Modelle). Wir tun nicht so, als könnte Tesseract das.
Wie schnell ist es?
Zwei Phasen. (1) Modell-Laden: 5-15 Sekunden beim ersten Mal, wenn du eine Sprache wählst (die ~5-10 MB .traineddata wird heruntergeladen). Danach gecacht, also sind nachfolgende Läufe im selben Browser sofort. (2) Erkennung: ~1-3 Sekunden pro Seite bei 200 DPI auf einem modernen Laptop, ~3-8 Sekunden bei 300 DPI. Ein 20-seitiger gescannter Bericht bei 200 DPI ist typischerweise nach 30-60 Sekunden Ende-zu-Ende fertig nach dem ersten Lauf. Es gibt eine Abbrechen-Schaltfläche, falls du es dir unterwegs anders überlegst.
Ist mein PDF wirklich privat?
Das PDF selbst verlässt den Browser nie. pdfjs-dist rendert Seiten lokal; Tesseract.js läuft die OCR lokal über WebAssembly. Die einzige Netzwerkanfrage während eines Laufs ist das Holen des Sprachmodells von Tesseracts CDN (jsdelivr) beim ersten Mal — und das ist nur ein öffentlicher statischer Datei-Download, derselbe, den alle bekommen, ohne PDF-Daten darin. Prüf den Netzwerk-Tab deines Browsers während der Erkennung: Nach dem Modell-Laden null ausgehende Anfragen, bis du die Seite neu lädst.
Warum hat der erkannte Text Fehler?
OCR ist inhärent unvollkommen — es ist Mustererkennung auf Pixeln. Genauigkeit hängt stark von der Input-Qualität ab: 300 DPI sauberer Scan einer Standard-Buch-Schrift in gutem Kontrast = oft 98 %+. 150 DPI Foto einer zerknitterten Quittung unter Leuchtstoffröhren = viel schlechter. Häufige Probleme: 'l' vs. 'I' vs. '1'-Verwechslung, 'O' vs. '0', verbundene Buchstaben in alten Schriften, Spalten verschachteln, Fußnoten mit Body-Text gemischt. Korrigier OCR-Output immer, bevor du ihm für juristische, medizinische oder finanzielle Nutzung vertraust.
Kann ich ein PDF OCRen, das bereits Text hat?
Du kannst, aber es ist das falsche Tool. PDFs mit eingebettetem Text (alles aus Word, Google Docs, LaTeX oder „Als PDF speichern" aus einem Browser exportiert) haben bereits auswählbaren Text — OCR darauf zu laufen erkennt die gerenderten Glyphen von Grund auf neu, was langsamer und ungenauer ist, als einfach den Text zu lesen, der schon da ist. Für die nutz das Text-aus-PDF-extrahieren-Tool — es ist sofort und exakt.
Werdet ihr einen Durchsuchbares-PDF-Output hinzufügen?
Ja, das ist der v2-Plan. Der aktuelle Output ist eine reine .txt-Datei der erkannten Wörter. Ein „durchsuchbares PDF" würde die Original-Seitenbilder behalten, aber eine unsichtbare Textebene darüber legen, sodass du wie in einem normalen Textdokument im PDF markieren, auswählen und Strg-F kannst. Es ist ein komplexerer Build (jedes erkannte Wort an der richtigen x/y-Position auf der Seite platzieren) und wir wollten zuerst die ehrliche .txt-Version liefern. Der Output-Picker zeigt „Durchsuchbares PDF — kommt bald", damit du weißt, dass es geplant ist.
Was ist das Dateigrößen-Limit?
50 MB und 100 Seiten pro Lauf. OCR ist viel schwerer als Text-Extraktion — jede Seite wird in eine hochauflösende Leinwand gerendert und durch ein WASM-Modell verarbeitet — also sind die Grenzen enger als bei unseren anderen PDF-Tools. Für größere Dokumente teil das PDF mit unserem PDF-Teiler und OCRe die Stücke separat. Auf einem speicherarmen Gerät (ein Handy, ein Chromebook mit 4 GB RAM) können selbst 100 Seiten bei 300 DPI den Speicher überlaufen lassen; reduzier auf 200 DPI oder teil kleiner.