OCR PDF

🔒 The PDF stays in your browser — it never uploads. The OCR model is fetched once from Tesseract's CDN, then cached. Close the tab and your file is gone.

PDF OCR tool उस gap को fill करता है जिसे हमारा Extract Text tool honestly admit करता है: scanned PDFs के पास selectable text नहीं होता, तो normal text extractor कुछ return नहीं करता। यह वाला हर page को pdfjs-dist के साथ canvas पर render करता है, फिर Tesseract.js — open-source Tesseract engine का WASM port — चलाता है pixels से characters recognize करने के लिए। आपको recognized text वाली .txt file वापस मिलती है। यह Acrobat का hybrid OCR नहीं है — Acrobat Tesseract के ऊपर ML layer करता है और messy scans पर बेहतर करता है — पर 200-300 DPI पर clean machine-printed scans के लिए, Tesseract good है। Handwriting almost always fails; हम कहते हैं। PDF आपके browser में रहती है। Language model एक बार Tesseract के CDN से fetch होती है और cache होती है।

Built by Bob Article by Lace QA by Ben Shipped

कैसे उपयोग करें

  1. 1

    Scanned PDF drop या pick करें। 50 MB और 100 pages तक।

  2. 2

    Document language pick करें। English, Spanish, German, French, Portuguese, Italian, और Russian आज support हैं। Language model (~5-10 MB) per language एक बार download होती है और browser cache करता है।

  3. 3

    Render DPI pick करें। 200 DPI recommended है। 300 DPI best accuracy देता है पर ज़्यादा time लेता है; 150 DPI faster है पर सिर्फ clean scans पर अच्छे से काम करता है।

  4. 4

    "Run OCR" click करें। Model load होता है (पहली बार 5-15 seconds), फिर हर page order में render और recognize होता है। Per page progress दिखता है; आप mid-run cancel कर सकते हैं।

  5. 5

    Recognized text copy करें या इसे .txt के रूप में download करें आपके source के नाम पर (e.g., contract-scan.pdf → contract-scan.txt)। Output UTF-8 है।

अक्सर पूछे जाने वाले प्रश्न

Ratings & Reviews

Rate this tool

Sign in to rate and review this tool.

Loading reviews…

OCR PDF tool actually क्या करता है

Scanned PDF text जैसी दिखती है पर है नहीं। यह text की pictures का stack है — bitmaps जो आपके camera या scanner ने capture किए, PDF wrapper के अंदर stuffed। जब आप Cmd-F search hit करते हैं, कुछ नहीं होता। जब आप paragraph select करते हैं, cursor pixels पर sweep करता है और कुछ नहीं grab करता। ऐसा इसलिए क्योंकि file में कोई text नहीं है, सिर्फ text की appearance है। OCR PDF tool यह fix करता है। यह हर page को pdfjs-dist के साथ canvas पर render करता है, फिर Tesseract.js — open-source Tesseract engine का WebAssembly port — चलाता है pixels से characters वापस पढ़ने के लिए। आपको recognized words वाली real .txt file मिलती है। सब कुछ आपके browser में होता है। आपकी scan कभी machine नहीं छोड़ती।

वो last part पूरा point है। OCR दो दशकों से online है; कोई भी एक pick करें OnlineOCR.net, SmallPDF, iLovePDF, Adobe Acrobat के web version में से — वे सब करेंगे। हर एक आपका document पहले upload करता है। वो flyer के लिए fine है। यह signed loan agreement, medical record, passport scan, immigration form, tax return, या किसी और चीज़ के लिए fine नहीं जो लोग actually OCR करते हैं। Tesseract वही recognition locally चलाता है; हमने बस वो wrapper बनाया जो browser को इसे चलाने देता है।

OCR PDF tool कैसे use करें

Tool एक screen है। Scan drop करें, language pick करें, run click करें।

  1. Scanned PDF drop या pick करें। 50 MB और 100 pages तक।
  2. Document language pick करें। English, Spanish, German, French, Portuguese, Italian, और Russian आज support हैं। Language model (~5-10 MB) per language एक बार download होती है और browser cache करता है।
  3. Render DPI pick करें। 200 DPI recommended है। 300 DPI best accuracy देता है पर ज़्यादा time लेता है; 150 DPI faster है पर सिर्फ clean scans पर अच्छे से काम करता है।
  4. Run OCR click करें। Model load होता है (पहली बार 5-15 seconds), फिर हर page order में render और recognize होता है। Per page progress दिखता है; आप mid-run cancel कर सकते हैं।
  5. Recognized text copy करें या इसे .txt के रूप में download करें आपके source के नाम पर (e.g., contract-scan.pdfcontract-scan.txt)। Output UTF-8 है।

Run के दौरान only network traffic Tesseract के CDN से first language-model download है। वो request public static file fetch है — वही जो सबको मिलती है — और दोनों direction में कोई PDF data नहीं carry करती। Model browser के cache में land होने के बाद, network tab बाकी run के लिए silent है, और same language में subsequent runs के लिए forever silent।

DPI और language — दो knobs जो matter करते हैं

Tesseract pattern-matcher है जो character shapes पर trained है। दो चीज़ें pattern matching को wreck करती हैं: पर्याप्त pixels न होना, और wrong alphabet। DPI पहली control करता है। Language दूसरी control करती है।

Render DPIPages per minuteClean scans पर accuracyकिसके लिए best
150 DPI~30-5092-96%Already-sharp scans, single-column body text, quick drafts
200 DPI (default)~20-3096-99%ज़्यादातर documents — speed और accuracy के लिए sweet spot
300 DPI~10-1597-99%+Small fonts, fine print, footnotes, कुछ भी जो आप बिना proofreading के trust करेंगे

150 DPI से नीचे जाना bad trade है। Tesseract similar glyphs को confuse करना शुरू कर देता है जब character height roughly 30 pixels से नीचे drop होती है — "rn" "m" जैसा पढ़ता है, "cl" "d" जैसा पढ़ता है, lowercase L number 1 जैसा दिखता है। 300 DPI से ऊपर जाना rarely help करता है और runtime roughly double करता है — तब तक आप page को इतनी detail में render कर रहे हैं जितनी recognizer use कर सकता है।

Language लोगों के expect करने से ज़्यादा matter करती है। English model से loaded Tesseract Spanish page recognize करने की कोशिश करेगा, पर यह नहीं जानता कि ñ, í, या á letters हैं — यह उन पर guess करेगा और miss करेगा। Document की dominant language pick करें। Spanish contract के लिए जिसमें कुछ English brand names sprinkled हैं, Spanish pick करें; Tesseract brand names को approximately right और body text को exactly right करेगा। Mixed-script documents (English next to Chinese, Arabic, Hindi) के लिए, Tesseract scripts के बीच fly पर switch करने में great नहीं है — अगर आपको उनमें से एक चाहिए तो बताएँ और हम picker में model add करेंगे।

Real numbers के साथ worked example

Real case लें: 1980s university transcript का 12-page scanned PDF — typewriter font, 200 DPI scan, कोई obvious damage नहीं, single column, English। File 4.2 MB है।

200 DPI / English पर, run 28 seconds end-to-end लेता है (prior session से model already cached होने के बाद)। Output 6.8 KB .txt file है। Original के against output spot-check करना: page पर 1,247 words, total 14 OCR errors। ज़्यादातर student-ID column में "I" vs "l" vs "1" confusion थे। Course names clean आए। Grades clean आए। Transcript header — school crest area, जहाँ scan ने seal का कुछ catch किया — only real garbage वाला zone था। Manual cleanup text editor में दो minutes ले गई।

Same document 300 DPI पर: 51 seconds, 4 OCR errors। Same document 150 DPI पर: 18 seconds, 38 errors — visibly worse, digits hard hit हुए। 200 DPI right pick था।

अब input flip करें: handwritten meeting note की phone photo, PDF के रूप में exported। Tesseract ने कुछ stray characters के साथ mostly-blank file return की। यह honest answer है — Tesseract machine-printed text पर trained था, और handwriting अलग problem है। हम pretend नहीं करते।

यह Adobe Acrobat, SmallPDF, iLovePDF से कैसे compare करता है

Honest comparison: Adobe Acrobat का OCR hard inputs पर हमारे से better है, और हम openly कहते हैं।

Acrobat hood के नीचे Tesseract चलाता है (या historically चलाता था — Adobe ने सालों पहले उनका अपना ML ऊपर layer किया) plus pre-processing का stack: de-skew, contrast correction, line-detection, और post-OCR language model जो common recognition mistakes catch करता है। Fluorescent light के नीचे photographed crumpled receipt पर, Acrobat usable text produce करेगा जहाँ Tesseract mush return करता है। यह ~$20/month worth है अगर आपका job पूरा दिन messy real-world inputs OCR करना है। Clean 200-300 DPI machine-printed scan पर common language में, gap closes — Tesseract अक्सर 97%+ है, Acrobat अक्सर 99%+ है, और ज़्यादातर users के लिए difference document upload करने को justify नहीं करता।

SmallPDF और iLovePDF server-side OCR (engines के same family) wrap करते हैं daily free-file quota और recurring subscription nudge के पीछे। वे काम करते हैं। वे आपकी PDF भी उनके servers पर कम से कम कुछ घंटों के लिए रखते हैं, retention policy पर depending पर आमतौर पर लंबा। Sensitive scans के लिए, वो wrong default है। Marketing flyer के लिए, इससे फर्क नहीं पड़ता।

OnlineOCR.net और PDF24 का OCR इस market के cheap-feeling end हैं — काम करते हैं, ad-laden, file-size-capped, signup न करने पर output watermarked। ये वो हैं जिनके बारे में हम कह रहे हैं जब हम Big Software के bottom shelf पर point करते हैं। हम opposite trade हैं: nothing से slower (Tesseract single-threaded WASM है, आपका CPU काम करता है), no upload, no account, no quota।

Clean OCR किस पर depend करती है

OCR pixels पर pattern-matching है। Pattern visible होना ज़रूरी है। पाँच चीज़ें accuracy को कुछ और से ज़्यादा drive करती हैं:

  • Scan resolution. Reliable OCR के लिए 200-300 DPI floor है। Phone की 100 DPI photos अक्सर human को fine दिखती हैं और Tesseract को confuse करती हैं — letter strokes recognizer को shape lock on करने के लिए बहुत few pixels wide होते हैं।
  • Contrast. White paper पर black ink best है। Faded photocopies of photocopies, जहाँ letters page background में blur होते हैं, accuracy fast drop करते हैं। PDF save करने से पहले अगर कर सकते हैं तो scanner software में contrast adjust करें।
  • Skew. 5° angle पर scanned page straight वाले से worse पढ़ता है। Acrobat automatically de-skew करता है; Tesseract नहीं। Straighter page से re-scan करें या पहले viewer में rotate करें।
  • Font. 10-12pt पर modern body fonts cleanly OCR होते हैं। Decorative fonts, blackletter, very thin या very bold faces, all-caps display type, और handwriting सब harder हैं।
  • Background. Solid white या light-cream pages easy हैं। Heavily watermarked pages, security paper (check पर lined background, diploma पर patterned background), और browning के साथ aged paper सब recognizer के लिए noise हैं।

Bad OCR run पर single highest-leverage fix bumped up contrast के साथ 300 DPI पर rescanning है। यह free भी है।

Page text पर render करना embedded text extract करने जैसा नहीं है

यह एक चीज़ है जिसे लोग consistently गलत करते हैं। दो PDF-to-text jobs हैं जो identical sound करते हैं और नहीं हैं।

Page OCR करें (यह tool क्या करता है): हर page high-resolution bitmap के रूप में render होता है, फिर Tesseract उन pixels से characters recognize करता है। Scanned PDFs, photo-of-page PDFs, कुछ भी जहाँ text image का हिस्सा है पर काम करता है। Slow, slightly inaccurate, image-only PDFs के लिए only option।

Embedded text extract करें (अलग tool): PDF के अंदर stored text objects को directly पढ़ता है। किसी भी PDF पर काम करता है जो word processor, browser के "Save as PDF," LaTeX, InDesign — कुछ भी जो real text से PDF produce करता है — से born हुई। Instant, perfectly accurate, पर scans पर कुछ return नहीं करता क्योंकि extract करने को कोई embedded text नहीं है।

अगर आपकी PDF के पास पहले से selectable text है — किसी भी PDF viewer में sentence highlight करने की कोशिश करें — इसके बजाय Extract Text from PDF use करें। यह faster और exact है। OCR उस case के लिए है जहाँ extract करने को कोई text नहीं है, सिर्फ recognize करने को pixels हैं।

Tesseract क्या है और क्या नहीं

Tesseract HP Labs में 1980s में research project के रूप में शुरू हुआ, 2005 में open-sourced हुआ, और अगले दशक के लिए Google का preferred OCR engine बना। हम जो community version चलाते हैं वही engine है जो countless desktop tools, Linux distributions, और document-processing pipelines में ship होता है। यह नया नहीं है और magic नहीं है — यह mature, predictable, और free है।

यह किसमें good है: machine-printed text, modern Latin और Cyrillic alphabets, normal sizes पर body fonts, books, contracts, articles, scanned receipts, typewritten documents। किसमें mediocre है: 8pt से छोटे fonts, mathematical notation, multi-column layouts (यह try करता है, पर कभी-कभी columns interleave करता है), tables (table नहीं बल्कि reading order में text के रूप में rendered)। किसमें bad है: handwriting (इसके लिए essentially undecipherable; बहुत tidy hand-printing कभी-कभी काम करती है पर heavy errors expect करें), CAPTCHAs (intentionally), heavily stylized fonts, कुछ भी जहाँ characters deliberately पढ़ने में hard हैं।

Newer commercial OCRs — Google Cloud Vision, Microsoft Azure Document Intelligence, AWS Textract — hard inputs पर Tesseract को beat करते हैं क्योंकि वे enormous datasets पर trained modern transformer models use करते हैं। वे per page charge भी करते हैं और आपको cloud पर document ship करना require करते हैं। ज़्यादातर documents के लिए, ज़्यादातर days, browser में Tesseract right trade है।

संबंधित PDF tools

OCR PDF tool larger PDF toolset में एक tile है। कुछ neighbors जो अक्सर सामने आते हैं:

  • PDF से Text Extract करें — अगर आपकी PDF के पास पहले से selectable text है तो पहले इसे use करें। Instant और exact, no OCR needed।
  • PDF Images Extract करें — embedded photos को PDF से individual files के रूप में pull करें। OCR से अलग job।
  • PDF से PNG — हर page को lossless image के रूप में render करें। Useful जब आप recognized text के साथ page pictures चाहते हैं।
  • Split PDF — OCR करने से पहले long PDF को chunks में break करें। OCR tool per run 100 pages cap करता है; longer documents के लिए, पहले split करें।
  • Compress PDF — अगर आपकी scan enormous है, पहले इसे compress करना 200 DPI पर OCR accuracy hurt नहीं करेगा और per-run limit के नीचे page count वापस ला सकता है।

Microapp हर PDF tool browser-side ship करता है, हर page पर same trade-offs spelled out के साथ। Microapp जो भी dollar कमाता है उसका 10% charity में जाता है, off the top, audited quarterly — तो आप जो tool use कर रहे हैं उसे actually ads के रास्ते में आए बिना काम करना है।

Frequently asked questions

Adobe Acrobat के OCR के साथ यह कैसे compare करता है?

Honestly: Acrobat hard inputs पर बेहतर है। Acrobat Tesseract plus Adobe का अपना ML layer use करता है de-skewing, contrast correction, और language model post-processing के लिए — यह messy scans (bad lighting, rotated pages, low contrast, unusual fonts) ज़्यादा reliably handle करता है। यह tool plain Tesseract है। 200-300 DPI पर clean machine-printed scans में supported language में, gap छोटा है और आपको अपना document upload न करने का upside मिलता है। Hard scans पर, Acrobat wins। हम oversell करने के बजाय यह कहना prefer करेंगे।

यह कौन सी languages support करता है?

आज: English, Spanish, German, French, Portuguese, Italian, और Russian। हर language का अपना ~5-10 MB Tesseract model है जो first use पर download होता है और बाद में cached होता है। Tesseract खुद 100+ languages support करता है — अगर आपको ऐसी चाहिए जो picker में नहीं है (Chinese, Japanese, Arabic, Hindi, etc.), हमें बताएँ और हम add करेंगे। Mixed-language documents best काम करते हैं अगर आप dominant language pick करते हैं; Tesseract scripts के बीच fly पर switch करने में great नहीं है।

क्या यह handwriting पर काम करता है?

लगभग कभी नहीं। Tesseract machine-printed text पर trained था — fonts, books, scanned typewritten documents, signage। Cursive handwriting इसके लिए essentially undecipherable है; बहुत tidy hand-printed text कभी-कभी काम करता है पर आपको heavy errors expect करनी चाहिए। Handwriting OCR के लिए आपको अलग model चाहिए (Google Cloud Vision और Microsoft Azure Document Intelligence दोनों handwriting-trained models ship करते हैं)। हम pretend नहीं करेंगे कि Tesseract यह कर सकता है।

यह कितनी fast है?

दो phases। (1) Model load: पहली बार language pick करने पर 5-15 seconds (~5-10 MB .traineddata downloads)। बाद में cached, तो same browser में subsequent runs instant हैं। (2) Recognition: modern laptop पर 200 DPI पर ~1-3 seconds per page, 300 DPI पर ~3-8 seconds। 200 DPI पर 20-page scanned report typically first run के बाद 30-60 seconds end-to-end finish करती है। अगर आप partway में अपना mind change करते हैं तो Cancel button है।

क्या मेरी PDF actually private है?

PDF खुद browser कभी नहीं छोड़ती। pdfjs-dist locally pages render करता है; Tesseract.js locally WebAssembly के through OCR चलाता है। Run के दौरान only network request पहली बार Tesseract के CDN (jsdelivr) से language model fetch करना है — और वो बस public static file download है, वही जो सबको मिलती है, उसमें कोई PDF data नहीं। Recognition के दौरान browser का Network tab check करें: model load होने के बाद, page reload होने तक शून्य outbound requests।

Recognized text में mistakes क्यों हैं?

OCR inherently imperfect है — यह pixels पर pattern matching है। Accuracy input quality पर heavily depend करती है: standard book typeface के 300 DPI clean scan good contrast में = अक्सर 98%+। Fluorescent light के नीचे crumpled receipt की 150 DPI photo = बहुत worse। Common issues: 'l' vs 'I' vs '1' confusion, 'O' vs '0', old fonts में joined letters, columns interleaving, footnotes body text के साथ mixed। Legal, medical, या financial use के लिए trust करने से पहले हमेशा OCR output proofread करें।

क्या मैं ऐसी PDF OCR कर सकता हूँ जिसमें पहले से text है?

आप कर सकते हैं, पर यह wrong tool है। Embedded text वाली PDFs (कुछ भी जो Word, Google Docs, LaTeX, या browser से 'Save as PDF' से export हुआ) के पास पहले से selectable text है — उन पर OCR चलाना rendered glyphs को scratch से re-recognize करता है, जो already जो text वहाँ है उसे पढ़ने से slower और less accurate है। उनके लिए, Extract Text from PDF tool use करें — यह instant और exact है।

क्या आप searchable-PDF output add करेंगे?

हाँ, वो v2 plan है। Current output recognized words की plain .txt file है। 'Searchable PDF' original page images रखेगी पर ऊपर invisible text layer add करेगी, तो आप PDF के अंदर normal text document की तरह highlight, select, और Ctrl-F कर सकते हैं। यह more complex build है (हर recognized word को page पर right x/y पर position करना) और हम honest .txt version पहले ship करना चाहते थे। Output picker 'Searchable PDF — coming soon' दिखाता है ताकि आपको पता हो planned है।

File size limit क्या है?

Per run 50 MB और 100 pages। OCR text extraction से बहुत heavier है — हर page high-resolution canvas पर render होता है और WASM model से process होता है — तो limits हमारे other PDF tools से tighter हैं। बड़े documents के लिए, हमारे PDF Splitter से PDF split करें और chunks separately OCR करें। Low-memory device पर (phone, 4 GB RAM वाला Chromebook), 300 DPI पर 100 pages भी memory out of run कर सकते हैं; 200 DPI drop करें या smaller split करें।