Was der PDF-zu-Excel-Konverter macht
Ein PDF speichert Text als positionierte Fragmente — jedes Wort kennt seine (x, y)-Position auf der Seite, aber nichts in der Datei weiß, was eine „Zeile" oder eine „Spalte" ist. Der PDF-zu-Excel-Konverter sieht sich diese Fragmente an, clustert sie zu Zeilen nach ihrer Y-Koordinate, teilt jede Zeile in Spalten, wo eine breite horizontale Lücke ist, und schreibt das Ergebnis in eine echte .xlsx-Arbeitsmappe. Ein Blatt pro PDF-Seite. Öffne sie in Excel, Google Sheets, Numbers oder LibreOffice Calc. Kein Upload, kein Wasserzeichen, keine Anmeldung.
Die gesamte Pipeline läuft in deinem Browser. PDF.js (Mozillas Open-Source-PDF-Bibliothek — dieselbe, die Firefox intern nutzt) liest dein PDF und gibt uns Text-Fragmente mit Koordinaten. SheetJS kodiert das Ergebnis in das .xlsx-Binärformat. Beide Bibliotheken laufen auf deiner CPU, in deinem Tab. Öffne DevTools, wechsel zum Netzwerk-Tab, klick auf Konvertieren. Null ausgehende Anfragen. Deine Bytes verlassen deinen Rechner nicht.
Ein ehrlicher Vorbehalt direkt oben: Das funktioniert gut bei PDFs, die bereits Tabellen sind — Finanzberichte, Auszüge, Exporte aus einer Tabellen-App, Behörden-Datenabwürfe, Vorstands-Sitzungs-Anhänge. Es funktioniert weniger gut bei Prosa-PDFs (ein Text-Spalten-Dokument kollabiert zu einer einzelnen Spalte aus Zellwerten, was korrekt ist, aber wahrscheinlich nicht das, was du wolltest) und gar nicht bei gescannten PDFs (Bild von Text, nicht Text — das ist ein OCR-Job, siehe unten). Vorab zu wissen, was das Tool macht und nicht macht, spart eine verschwendete Minute.
Wann PDF zu Excel das richtige Tool ist
Tabellen werden jeden Tag in PDFs gefangen. Quartalsberichte, Kontoauszüge, Steuerformulare, Lieferantenrechnungen, Behörden-Daten-Releases, interne MIS-Exporte, akademische Paper mit Ergebnistabellen — überall, wo ursprünglich eine Tabelle lebte, hat schließlich jemand entschieden, „die PDF-Version zu teilen". Die Zahlen sind genau dort auf der Seite; sie sind nur nicht in einem Format, das du summieren, filtern, sortieren oder pivotieren kannst.
Echte Situationen, in denen sich dieses Tool lohnt:
- Kontoauszug-Abstimmung. Deine Bank mailt monatliche Auszüge als PDFs. Du willst die Transaktionen in einer Tabelle, damit du sie kategorisieren, nach Händler summieren und an deinen Steuerberater füttern kannst. Die Transaktionen sind eine Tabelle auf jeder Auszugsseite.
- Lieferantenrechnungen. Ein Lieferant schickt 6 Rechnungen im Monat als PDFs. Dein Kreditoren-Workflow braucht sie als Zeilen in einer Arbeitsmappe, damit du nach Monat summieren und gegen Bestellungen abstimmen kannst.
- Forschungsdaten. Eine Behörde, ein akademisches Paper oder ein Industriebericht veröffentlicht eine Schlüsseldatentabelle in einem PDF-Bericht. Du willst sie in Excel, damit du sie chartten oder mit deinen eigenen Daten verknüpfen kannst.
- Verkaufsberichte aus deinem CRM. Das CRM hat eine „Als PDF herunterladen"-Schaltfläche, aber keine „Als Excel herunterladen" — oder nur in der bezahlten Stufe. Das PDF hat die Tabelle, für die du sonst 20 $/Sitz/Monat zahlen würdest, sie anders zu exportieren.
- Klassenlisten oder Anwesenheits-Logs. Eine Lehrkraft oder ein Admin bekommt eine Liste als PDF, braucht sie in einer Tabelle, um Anwesenheit zu nehmen, zu benoten oder mit Vertretern zu teilen.
In jedem Fall sind die zugrunde liegenden Daten tabellarisch — feste Zeilen und Spalten — und das PDF ist nur der Wrapper, den jemand gewählt hat. Der Konverter entfernt den Wrapper und gibt dir die Tabelle zurück.
So nutzt du den PDF-zu-Excel-Konverter
Ein Bildschirm. Drop-Zone oben, ein kurzer Callout, der erklärt was funktioniert und was nicht, eine Konvertier-Schaltfläche darunter.
- Zieh dein PDF rein oder wähl es aus. Bis zu 100 MB und 200 Seiten.
- Lies den gelben Callout — er sagt dir, bei welcher Art von PDF das funktioniert (Tabellen) und bei welcher nicht (Prosa, Scans, komplexe Layouts).
- Klick auf „Zu Excel konvertieren". Das Tool liest jede Seite, clustert die Text-Fragmente in ein 2D-Gitter und gibt ein Blatt pro PDF-Seite aus.
- Lade die .xlsx-Datei herunter (benannt nach deinem Quell-PDF —
invoice.pdf→invoice.xlsx). Öffne sie in Excel, Google Sheets, Numbers oder LibreOffice Calc. - Sieh das Ergebnis durch. Spaltengrenzen sind eine bestmögliche Schätzung basierend auf horizontalen Lücken — wenn eine Spaltenteilung falsch gelandet ist, fix es in deiner Tabellen-App mit Text-in-Spalten oder durch direktes Bearbeiten der Zellen.
Das war's. Kein „Anmelden, um Konvertierung von mehr als 5 Seiten freizuschalten". Keine 10-MB-Free-Tier-Kappe. Kein Wasserzeichen, das durch deine Daten gestempelt wird.
Wie die Zeilen- und Spalten-Erkennung tatsächlich funktioniert
Das ist der interessante Teil und es lohnt sich zu verstehen, weil es sowohl die Gewinne als auch die Fehlerfälle erklärt.
PDF.js gibt uns eine Liste von Text-Fragmenten pro Seite. Jedes Fragment hat: den String, den es enthält, eine x/y-Position auf der Seite (in Punkten — 72 pro Zoll) und eine Breite. Eine typische Seite hat hunderte bis tausende Fragmente. Unser Job: Daraus ein Gitter machen.
Schritt eins — Zeilen nach Y clustern. Fragmente, deren Y-Koordinaten innerhalb von etwa 5 Punkten voneinander sind, werden als dieselbe Zeile behandelt. 5 pt ist etwa eine halbe Zeile Body-Text, also absorbiert das die natürliche Grundlinien-Variation in jeder Tabellenreihe, während eine Zeile von der nächsten getrennt bleibt. Das Ergebnis ist eine geordnete Liste von Zeilen, oben nach unten.
Schritt zwei — Spalten nach X-Lücken teilen. Innerhalb jeder Zeile werden Fragmente links nach rechts sortiert. Wo die horizontale Lücke zwischen benachbarten Fragmenten 8 Punkte überschreitet, fügen wir eine Spaltengrenze ein. 8 pt ist breiter als typischer Wortzwischenraum (ein Leerzeichen ist etwa 3 pt bei 10-pt-Schriftgröße), aber schmaler als der Bundsteg, den die meisten Tabellen-Designer zwischen Spalten nutzen. Benachbarte Wörter in derselben Spalte bleiben also in derselben Zelle; benachbarte Spalten werden getrennt.
Das ist der ganze Algorithmus. Zwei Heuristiken, abgestimmt auf die Art, wie echte Tabellen tatsächlich layoutet sind. Kein Machine Learning, keine Cloud-API, kein Upload-und-warte-auf-unsere-KI. Nur Geometrie. Es funktioniert gut bei echten Tabellen aus demselben Grund: Echte Tabellen sind die Geometrie, die es erwartet.
Wo es schwankt: Eine „Tabelle", die eigentlich eine mehrspaltige Seite mit Prosa ist (denk an einen Magazin-Artikel, ein zweispaltiges Konferenz-Paper), wird vom X-Lücken-Detektor in Spalten geteilt. Das ist der Algorithmus, der genau das macht, was er soll — es gibt breite horizontale Lücken zwischen den zwei Textblöcken. Wenn du stattdessen die Prosa zurück willst, nutz PDF-Text-Extraktion, die die Leserichtung bewahrt.
Big-Software-Alternativen — und der Deal, den jede anbietet
Du hast drei andere Optionen, um Tabellen aus einem PDF zu bekommen, und jede kommt mit ihrer eigenen Steuer.
Adobe Acrobat Pro (19,99 $/Monat oder 239,88 $/Jahr) ist der Goldstandard. Es hat eine echte Tabellen-Erkennungs-Pipeline, über Jahrzehnte abgestimmt — Linienerkennung, OCR-Fallback für gescannte Tabellen, Header-Erkennung, Fußnoten-Handhabung. Für PDFs ohne offensichtliche Tabellen-Struktur (keine Rahmen, verbundene Zellen, irreguläre Layouts) ist es besser als wir. Der Preis ist der Preis: ein dauerhaftes Monatsabo, ob du 100 PDFs pro Monat oder eines konvertierst. Die meisten, die Acrobat besitzen, nutzen es für 5 % von dem, was es macht.
iLovePDF, SmallPDF, PDF24, ABBYY FineReader Online, Convertio — die Upload-zuerst-Bande. Sie nehmen dein PDF, schicken es an einen Server irgendwo, laufen eine Konvertierung dort, schicken dir eine .xlsx zurück. Dieselbe Konvertierungsqualität wie unsere in den einfachen Fällen; manchmal besser in den harten Fällen (einige OCRen gescannte Tabellen; wir nicht). Der Deal: Dein PDF ist jetzt auf jemandes Server. Für ein öffentliches Datensatz-PDF, wen kümmert's. Für einen Kontoauszug, eine Gehaltstabelle, einen Vertrag mit Posten, ein HR-Dokument — du hast es gerade an einen Fremden gemailt und ihm vertraut, dass er es löscht. Plus Ratenlimits (SmallPDF kappt dich bei 2 Konvertierungen vor der Anmeldung; Sejda bei 3/Stunde) und ein Pro-Plan-Pitch auf jeder Seite.
„Aus dem PDF kopieren und in Excel einfügen." Versuch es einmal bei einer mehrspaltigen Tabelle und beobachte, wie die Spalten in eine einzelne Spalte aus Zellwerten kollabieren. PDF-Kopier-Einfügen bewahrt Text, aber verwirft Layout — es ist genau das Problem, das unsere Spalten-Erkennung gebaut wurde zu lösen. Funktioniert okay für eine einspaltige Liste. Fällt auseinander bei allem Breiteren.
Big Softwares Pitch ist immer: Die Konvertierung ist „kostenlos!", aber die Erfahrung ist abgeriegelt. Free Tier gekappt bei 2 Dateien, je 10 Seiten, mit Wasserzeichen. Pro Tier schaltet den Rest frei. Melde dich an, um die Kappe zu entfernen. Abonniere, um das Wasserzeichen zu entfernen. Wir picken absichtlich einen Kampf mit diesem Modell. Der Browser macht die Arbeit. Es gibt keine marginalen Kosten für uns. Also gibt es keinen marginalen Preis für dich. „Es gibt eine Lösung für alles" heißt nicht „es gibt eine bezahlte Lösung für alles".
Durchgerechnetes Beispiel: ein 6-seitiger Kontoauszug
Du stimmst Ausgaben für das Quartal ab. Deine Bank mailt einen Monatsauszug als PDF. Sechs Seiten, drei Auszüge in einem Ordner. Jeder Auszug hat einen Header (Seite 1 mit Kontoinfo, Zusammenfassung), drei Seiten Transaktionen in einer 5-Spalten-Tabelle (Datum, Beschreibung, Soll, Haben, Saldo) und eine letzte Seite Kleingedrucktes.
Was passiert, wenn du einen Auszug in den Konverter ziehst:
- Du ziehst
statement-2026-04.pdfauf die Drop-Zone. Das Widget zeigt die Seitenzahl (6) und eine Konvertier-Schaltfläche. - Klick auf Zu Excel konvertieren. Etwa 2 Sekunden später aktiviert sich der Download.
- Du öffnest
statement-2026-04.xlsx. Es hat sechs Blätter: „Page 1", „Page 2", …, „Page 6". - Seite 1 hat den Konto-Header — Name, Adresse, Kontonummer — in grobe Zeilen geclustert. Nicht sehr nützlich als Tabelle, aber treu zu dem, was auf der Seite ist.
- Seiten 2–4 sind die Transaktionen. Jede Zeile hat 5 Spalten: Datum, Beschreibung, Soll, Haben, Saldo. Die Kopfzeile aus dem Bank-PDF ist die erste Zeile jedes Blatts.
- Seiten 5–6 sind die Summen und das Kleingedruckte. Meist nutzlos für die Abstimmung; ignorier sie.
Du wählst Seiten 2–4 aus, kopierst die Zeilen, fügst sie in deine Master-Arbeitsmappe ein. Fünf Sekunden Aufräumarbeit — ein paar Soll/Haben-Zellen, wo das Bank-PDF eine seltsame Leerzeichen-Konvention nutzte und unser Spalten-Detektor sie leicht anders geteilt hat. Klick, klick, fertig. Wiederhol für die anderen zwei Auszüge. Gesamtzeit: etwa 5 Minuten. Derselbe Job durch Adobe Acrobat wäre etwa dieselbe Zeit, plus ein 19,99 $-Abo. Durch SmallPDF: langsamerer Upload-Schritt, plus die Daten der Bank sind jetzt auf SmallPDFs Server.
Was es bewahrt, was nicht
Ehrliche Erwartungs-Einstellung spart Frustration. Hier ist, was die Konvertierung überlebt und was nicht:
| Feature | Was passiert |
|---|---|
| Zelltext und Zahlen | Genau bewahrt, wie PDF.js sie liest |
| Zeilenreihenfolge | Bewahrt (oben nach unten jeder Seite) |
| Spaltenreihenfolge | Bewahrt (links nach rechts jeder Zeile) |
| Kopfzeile | Wird die erste Zeile des Blatts (kein spezieller „Header"-Status angewendet) |
| Mehrseitige Tabellen | Ein Blatt pro Seite — die Tabelle wird über Blätter geteilt, du würdest sie in Excel neu kombinieren |
| Verbundene Zellen | Best-Effort: Der Wert geht in die linkeste Zelle des Verbunds |
| Rahmen, Farben, Schriften | Entfernt — nur Werte |
| Formeln | Nicht anwendbar — PDFs tragen keine Formeln, nur berechnete Werte |
| Gescannte Tabellen | Funktioniert nicht — keine OCR. Bild-PDFs kommen leer raus. |
| Mehrspaltiges Seitenlayout (z. B. Magazin-Spalten) | Beide Spalten enden Seite-an-Seite in der Tabelle — meist nicht das, was du willst |
| Bilder, eingebettet in Zellen | Entfernt — siehe PDF-Bilder extrahieren dafür |
Wenn eine Spaltengrenze auf deinem speziellen PDF falsch landet — sagen wir, der Konverter hat zwei Spalten verschmolzen, die separat sein sollten, weil ihre horizontale Lücke 6 pt statt 8 pt war — ist die Lösung in Excel selbst, nicht in unserem Tool. Wähl die Spalte aus, Daten → Text in Spalten → Feste Breite → zieh die Grenze an die richtige Stelle. 30 Sekunden. Die Alternative — eine UI zu bauen, damit Nutzer Spaltengrenzen in unserem Widget manuell ziehen können — würde die Komplexität des Tools für die 5 % der Konvertierungen verdoppeln, wo es helfen würde. Das Simplicity Pledge sagt: einen Job machen. Wir machen das.
Über gescannte PDFs und OCR
Die mit Abstand häufigste „das Tool hat nicht funktioniert"-Meldung bei jedem PDF-Konverter ist: Ich habe einen Scan reingezogen, das Ergebnis war leer. Hier ist warum und was zu tun ist.
Ein gescanntes PDF ist ein Bild einer Seite, gewickelt in PDF-Metadaten. Es gibt keinen Text drin — jeder „Buchstabe" ist ein Pixel-Muster. PDF.js findet, wenn es gebeten wird, Text aus einem Scan zu extrahieren, null Text-Fragmente und reicht uns nichts. Unser Zeilen-/Spalten-Detektor hat also nichts zu clustern, und der .xlsx-Output ist leer. Das ist kein Bug, den wir in diesem Tool fixen können; es ist der Input, der eine andere Art von Objekt ist als das, was das Tool liest.
Was zu tun: Das PDF zuerst OCRen. Optical Character Recognition wandelt die Pixel zurück in Text-Fragmente — sobald das gemacht ist, hast du ein „echtes" PDF mit extrahierbarem Text und der Konverter wird funktionieren. Optionen:
- Adobe Acrobat Pro hat eingebaute OCR (Werkzeuge → Text erkennen). Lauf es, speicher, dann lass das Ergebnis hier durchlaufen.
- macOS Vorschau OCRet PDFs automatisch, wenn du sie auf neueren macOS-Versionen öffnest. Speicher eine Kopie.
- Tesseract (Open Source, Kommandozeile) — über Homebrew oder apt installieren, auf deinem PDF laufen.
- Google Drive — hochladen, „Öffnen mit Google Docs" und Drive OCRt den Inhalt. Privatsphäre-Hinweis: Dein PDF ist jetzt in Google.
Wir fügen vielleicht später ein In-Browser-OCR-Tool hinzu (tesseract.js funktioniert im Browser, nur langsam), aber es ist eine substantiell andere Operation als textbasierte Extraktion und verdient sein eigenes Tool.
Privatsphäre ist der ganze Grund, warum das im Browser existiert
Der Grund, warum PDF-zu-Excel-Konverter meist cloud-basiert sind, ist einfach: Es ist einfacher für den Anbieter, die Konvertierung auf ihrem Server zu laufen, als einen schnellen PDF-Parser an jeden Browser des Nutzers zu liefern. Der Privatsphäre-Deal des Nutzers — „gib uns dein PDF, wir versprechen es zu löschen" — sind die Kosten der einfacheren Engineering-Wahl.
Microapp hat absichtlich die schwerere Engineering-Wahl getroffen. PDF.js läuft in deinem Browser, schnell, auf jedem modernen Gerät. SheetJS läuft in deinem Browser, schnell, auf jedem modernen Gerät. Es gibt keinen Grund, warum die Konvertierung auf jemandes anderem Rechner passieren muss — außer dass es etwas mehr Arbeit für den Anbieter ist, das nicht zu tun.
Also haben wir die etwas mehr Arbeit gemacht. Das Ergebnis: Dein Kontoauszug, deine Gehaltstabelle, deine Kundenliste, dein Vertrag — was auch immer für ein PDF du konvertierst — bleibt auf deinem Laptop. Die Microapp-Seite lädt von unserem CDN; die Konvertierung läuft lokal; die .xlsx wird lokal gebaut und als lokaler Download-Blob angeboten. Null Netzwerkverkehr während der Konvertierung. Du kannst das mit DevTools verifizieren. Das ist kein Marketing-Versprechen — das ist die Architektur.
Verwandte Tools
Tools, die natürlich mit dem PDF-zu-Excel-Konverter zusammenarbeiten:
- Text aus PDF extrahieren — zieht laufende Prosa aus einem PDF (Leserichtung, nicht tabellarisch). Die richtige Wahl, wenn dein PDF nicht tabellarisch ist.
- Bilder aus PDF extrahieren — zieht die eingebetteten Fotos aus einem PDF in ihrer Originalauflösung.
- PDF teilen — zerlege ein sehr großes PDF in kleinere Dateien vor dem Konvertieren (hilfreich über 200 Seiten).
- PDF-Merger — kombiniere mehrere PDFs zu einem vor dem Konvertieren (nützlich für das Batchen von Monatsauszügen).
- Excel zu PDF — die umgekehrte Richtung. Verwandle eine Arbeitsmappe zurück in ein PDF.
- PDF-Seitenzahl — schnelle Prüfung der Länge eines PDFs, bevor du konvertierst.
- PDF schwärzen — schwärz sensible Felder, bevor du das Quell-PDF teilst.
Wie Microapp die Miete zahlt: Jahresmitgliedschaft für saubere Seiten und KI-Arbeit zu fast Selbstkosten; Nicht-Members bekommen dieselben Tools mit Werbung. So oder so gehen 10 % von jedem Dollar, den Microapp verdient, an Wohltätigkeit — vorab, quartalsweise auditiert und veröffentlicht. Der PDF-zu-Excel-Konverter ist eines von ~115 Microapps, gebaut zum selben Standard. Premium-Qualität, für alle.
Häufig gestellte Fragen
Wie wird die Tabelle tatsächlich erkannt?
Zwei-Schritt-Heuristik auf den Text-Fragmenten, die PDF.js uns gibt. Schritt eins: Cluster Fragmente nach Y-Koordinate — Fragmente innerhalb von etwa 5 pt voneinander vertikal werden als dieselbe Zeile behandelt. Schritt zwei: Innerhalb jeder Zeile, sortier Fragmente links nach rechts und teil in separate Spalten, wo die horizontale Lücke zwischen benachbarten Fragmenten 8 pt überschreitet (breiter als Wortzwischenraum, aber schmaler als typische Tabellen-Bundstege). Es ist eine Heuristik, keine Magie — funktioniert gut bei echten Tabellen, weniger gut bei Text, der einfach zufällig in Spalten layoutet ist.
Handhabt es verbundene Zellen?
Nein. PDFs haben kein strukturelles Konzept von „verbundenen Zellen" — sie haben visuell positionierten Text auf einer Seite, und eine verbundene Zelle ist nur ein einzelnes Text-Fragment, das zufällig das überspannt, was zwei Spaltenpositionen wären. Der Konverter platziert dieses Fragment in einer Zelle (der linkesten, mit der es überlappt). Wenn du verbundene Zellen bewahrt brauchst, musst du sie nach der Konvertierung manuell in Excel verbinden — aber unserer Erfahrung nach arbeiten nachgelagerte Tools sowieso besser mit nicht-verbundenen Zellen.
Was, wenn mein PDF mehrere Seiten hat?
Du bekommst ein Blatt pro Seite in der Output-Arbeitsmappe, benannt „Page 1", „Page 2" etc. Gesamtseiten gekappt bei 200 (höher gesetzt als die 500 der Text-Extraktion, weil der Cluster-und-Schreib-Schritt pro Seite schwerer ist). Wenn dein PDF länger ist, teil es zuerst mit unserem PDF-Teiler und konvertiere jedes Stück separat.
Wie ist das verglichen mit Adobe Acrobat oder einem bezahlten Konverter?
Adobe Acrobat (und ABBYY, Foxit etc.) liefern mit Multi-Pass-Tabellen-Erkennungs-Algorithmen, über Jahrzehnte abgestimmt — Linienerkennung, OCR-Fallback für gescannte Tabellen, Header-Erkennung, Fußnoten-Handhabung. Sie sind besser bei Sonderfällen: Tabellen ohne Rahmen, Tabellen mit verbundenen Zellen, gescannte PDFs (die wir gar nicht handhaben — keine OCR). Für den häufigen Fall — ein PDF, das buchstäblich ein Export einer Tabelle ist, oder ein Finanzbericht, der strukturell tabellarisch ist — bringt dich unser Tool 80 % des Weges für 0 $ und null Upload. Nutz Adobe, wenn du die letzten 20 % brauchst.
Wird mein PDF wirklich nicht hochgeladen?
Korrekt. PDF.js (die Bibliothek, die Firefox intern zum Rendern von PDFs nutzt) läuft in deinem Browser. SheetJS (der .xlsx-Encoder) läuft auch in deinem Browser. Deine Bytes gehen von deinem Dateisystem in den Browser-Speicher zum .xlsx-Download — nie zu einem Server. Prüf den Netzwerk-Tab deines Browsers während der Konvertierung: null ausgehende Anfragen.
Warum sieht mein Prosa-PDF in Excel wie eine einzelne Spalte aus?
Weil es das strukturell ist. Absätze laufenden Texts haben keine horizontalen Lücken, die breit genug sind, um eine Spaltenteilung auszulösen — die Wörter sind durch einzelne Leerzeichen-Lücken getrennt, weit unter unserer 8-pt-Schwelle. Der Konverter identifiziert korrekt jede Zeile als eine Zelle. Wenn du jede Zeile in ihrer eigenen Zelle der Spalte A willst, funktioniert das tatsächlich — wenn du die Wörter über Spalten geteilt willst, willst du wahrscheinlich Text aus PDF extrahieren und dann einen Text-in-Spalten-Schritt in Excel selbst.
Was ist mit gescannten PDFs?
Funktioniert nicht — wie unsere anderen PDF-Tools. Gescannte PDFs sind Bilder von Text, nicht Text. Sie zu konvertieren erfordert OCR (Optical Character Recognition), was eine grundlegend andere Operation ist und nichts, was dieses Tool macht. Lass den Scan zuerst durch ein OCR-Tool laufen (Adobe Acrobat, macOS Vorschau oder Tesseract), speicher das OCR-PDF und lass das dann hier durchlaufen.
Was ist die maximale Dateigröße?
100 MB und 200 Seiten. Der Cluster-und-Encode-Schritt ist speicherintensiv; wir kappen ihn niedriger als das Seitenzähl-Tool. Für wirklich große PDFs zuerst mit dem PDF-Teiler teilen.