PDF से Excel Converter क्या करता है
एक PDF text को positioned fragments के रूप में store करती है — हर word अपनी (x, y) location page पर जानता है, पर file में कुछ नहीं जानता कि "row" या "column" क्या है। PDF से Excel Converter उन fragments को देखता है, उन्हें Y-coordinate से rows में cluster करता है, हर row को जहाँ wide horizontal gap हो वहाँ columns में split करता है, और result real .xlsx workbook में लिखता है। One sheet per PDF page। Excel, Google Sheets, Numbers, या LibreOffice Calc में खोलें। No upload, no watermark, no signup।
पूरी pipeline आपके browser में चलती है। PDF.js (Mozilla की open-source PDF library — वही जो Firefox internally use करता है) आपकी PDF पढ़ती है और हमें coordinates के साथ text fragments देती है। SheetJS result को .xlsx binary format में encode करता है। दोनों libraries आपके CPU पर, आपके tab में चलती हैं। DevTools खोलें, Network tab पर switch करें, Convert click करें। शून्य outbound requests। आपकी bytes आपकी machine नहीं छोड़तीं।
एक honest caveat पहले से: यह उन PDFs पर अच्छे से काम करता है जो already tables हैं — financial reports, statements, spreadsheet app से exports, government data dumps, board-meeting attachments। यह prose PDFs पर कम अच्छे से काम करता है (column-of-text document cell values के single column में collapse हो जाता है, जो correct है पर शायद वो नहीं जो आप चाहते थे) और scanned PDFs पर बिल्कुल नहीं (text की image, text नहीं — वो OCR job है, नीचे देखें)। Tool क्या करता है और क्या नहीं यह पहले से जानना wasted minute बचाता है।
PDF से Excel कब right tool है
Tables हर दिन PDFs में trapped हो जाते हैं। Quarterly reports, bank statements, tax forms, supplier invoices, government data releases, internal MIS exports, results tables वाले academic papers — जहाँ भी spreadsheet originally रहती थी, किसी ने eventually "PDF version share करने" का decision लिया। Numbers right वहाँ page पर हैं; वे बस उस format में नहीं हैं जिसे आप sum, filter, sort, या pivot कर सकें।
Real situations जहाँ यह tool pay off करता है:
- Bank statement reconciliation. आपका bank monthly statements PDFs के रूप में email करता है। आप transactions को spreadsheet में चाहते हैं ताकि उन्हें categorize, merchant से sum, और अपने accountant को feed कर सकें। Transactions हर statement page पर table हैं।
- Vendor invoices. Supplier महीने में 6 invoices PDFs के रूप में भेजता है। आपकी accounts payable workflow को उन्हें workbook में rows के रूप में चाहिए ताकि महीने से total कर सकें और POs के against reconcile कर सकें।
- Research data. Government agency, academic paper, या industry report PDF report के अंदर key data table publish करता है। आप इसे Excel में चाहते हैं ताकि chart कर सकें या अपने data से join कर सकें।
- आपके CRM से sales reports. CRM के पास "Download as PDF" button है पर "Download as Excel" नहीं — या सिर्फ paid tier पर। PDF में वो table है जिसे आप otherwise $20/seat/month differently export करने के लिए pay कर रहे होते।
- Class rosters या attendance logs. Teacher या admin को roster PDF के रूप में मिलती है, उसे spreadsheet में चाहिए attendance लेने, grade करने, या substitutes के साथ share करने के लिए।
हर case में, underlying data tabular है — fixed rows और columns — और PDF बस wrapper है जो किसी ने choose किया। Converter wrapper strip करता है और आपको table वापस देता है।
PDF से Excel Converter कैसे use करें
एक screen। Top पर drop zone, short callout explaining क्या काम करता है और क्या नहीं, नीचे convert button।
- अपनी PDF drop या pick करें। 100 MB और 200 pages तक।
- Yellow callout पढ़ें — यह बताता है कि किस तरह की PDF पर यह काम करता है (tables) और किस पर नहीं (prose, scans, complex layouts)।
- "Convert to Excel" click करें। Tool हर page पढ़ता है, text fragments को 2D grid में cluster करता है, और one sheet per PDF page emit करता है।
- .xlsx file download करें (आपकी source PDF के नाम पर —
invoice.pdf→invoice.xlsx)। Excel, Google Sheets, Numbers, या LibreOffice Calc में खोलें। - Result eyeball करें। Column boundaries horizontal gaps के आधार पर best-guess हैं — अगर column split गलत land हुआ, तो अपने spreadsheet app में Text-to-Columns से या cells को directly edit करके fix करें।
बस इतना। कोई "5 pages से ज़्यादा conversion unlock करने के लिए sign up" नहीं। कोई 10 MB free-tier cap नहीं। आपके data के through stamped कोई watermark नहीं।
Row-and-column detection actually कैसे काम करता है
यह interesting part है, और इसे understand करने लायक है क्योंकि यह wins और failure modes दोनों explain करता है।
PDF.js हमें per page text fragments की list देता है। हर fragment के पास है: वो string जो contain करता है, page पर x/y position (points में — per inch 72), और width। Typical page सैकड़ों से हज़ारों fragments है। हमारा job: इसे grid में बदलना।
Step one — Y से rows cluster करें. Fragments जिनके Y-coordinates एक-दूसरे के लगभग 5 points के अंदर हैं उन्हें same row माना जाता है। 5pt body text के roughly half line है, तो यह किसी भी given table row में natural baseline variation absorb करता है जबकि एक row को अगले से separate भी करता है। Result rows की ordered list है, top to bottom।
Step two — X-gaps से columns split करें. हर row के अंदर, fragments left to right sort होते हैं। जहाँ adjacent fragments के बीच horizontal gap लगभग 8 points से ज़्यादा हो, हम column boundary insert करते हैं। 8pt typical inter-word spacing से wider है (10pt font size पर space लगभग 3pt है) पर ज़्यादातर table designers जो gutter use करते हैं उससे narrower। तो same column में adjacent words same cell में रहते हैं; adjacent columns split हो जाते हैं।
यही पूरा algorithm है। दो heuristics tuned to जिस तरह real tables actually laid out होते हैं। कोई machine learning नहीं, कोई cloud API नहीं, कोई upload-and-wait-for-our-AI नहीं। बस geometry। यह real tables पर अच्छे से काम करता है same reason के लिए: real tables हैं geometry जो यह expect कर रहा है।
कहाँ यह falters: एक "table" जो actually multi-column page of prose है (magazine article, two-column conference paper सोचें) X-gap detector से columns में split हो जाएगा। यह algorithm वही कर रहा है जो supposed है — दो text blocks के बीच wide horizontal gaps हैं। अगर आप prose वापस चाहते थे, PDF Extract Text use करें, जो reading order preserve करता है।
Big Software alternatives — और हर एक का deal
PDF से tables निकालने के लिए तीन other options हैं, और हर एक अपने tax के साथ आता है।
Adobe Acrobat Pro ($19.99/month, या $239.88/year) gold standard है। उसके पास real table-detection pipeline है decades पर tuned — line detection, scanned tables के लिए OCR fallback, header recognition, footnote handling। बिना obvious table structure वाली PDFs (no borders, merged cells, irregular layouts) के लिए, यह हमारे से better है। Price price है: perpetual monthly subscription चाहे आप महीने में 100 PDFs convert करें या एक। ज़्यादातर लोग जो Acrobat own करते हैं वो उसका 5% use करते हैं।
iLovePDF, SmallPDF, PDF24, ABBYY FineReader Online, Convertio — upload-first crowd। वे आपकी PDF लेते हैं, उसे कहीं server पर भेजते हैं, वहाँ conversion चलाते हैं, .xlsx आपको वापस भेजते हैं। हमारे जैसी conversion quality easy cases में; कभी-कभी hard cases में better (उनमें से कुछ scanned tables OCR करते हैं; हम नहीं)। Trade: आपकी PDF अब किसी के server पर है। Public dataset PDF के लिए, किसको परवाह। Bank statement, salary table, line items वाले contract, HR document के लिए — आपने इसे अभी stranger को email किया और delete करने का trust किया। Plus rate limits (SmallPDF आपको sign-up से पहले 2 conversions cap करता है; Sejda 3/hour पर) और हर page पर Pro Plan pitch।
"PDF से Excel में copy और paste करें." एक बार multi-column table पर try करें और देखें columns को cell values के single column में collapse होते। PDF copy-paste text preserve करता है पर layout discard करता है — यह exactly वो problem है जिसे solve करने के लिए हमारा column detection बना था। One-column list के लिए fine काम करता है। कुछ भी wider पर बिखर जाता है।
Big Software का pitch हमेशा है: conversion "free!" है पर experience gated है। 2 files पर free tier capped, हर एक 10 pages, watermark के साथ। Pro tier बाकी unlock करता है। Cap हटाने के लिए sign up करें। Watermark हटाने के लिए subscribe करें। हम purposely उस model के साथ लड़ाई pick कर रहे हैं। Browser काम करता है। हमारे लिए कोई marginal cost नहीं है। तो आपके लिए कोई marginal price नहीं है। "There is a solution for everything" का मतलब "every चीज़ के लिए paid solution है" नहीं है।
Worked example: 6-page bank statement
आप quarter के expenses reconcile कर रहे हैं। आपका bank monthly statement PDF के रूप में email करता है। छह pages, folder में तीन statements। हर statement में header है (page 1 account info, summary के साथ), transactions के तीन pages 5-column table में (date, description, debit, credit, balance), और fine print का final page।
जब आप एक statement converter में drop करते हैं तो क्या होता है:
- आप
statement-2026-04.pdfdrop zone पर drop करते हैं। Widget page count (6) और Convert button दिखाता है। - Convert to Excel click करें। लगभग 2 seconds बाद, download activate होता है।
- आप
statement-2026-04.xlsxखोलते हैं। इसमें छह sheets हैं: "Page 1", "Page 2", ..., "Page 6". - Page 1 में account header है — name, address, account number — rough rows में clustered। Table के रूप में बहुत useful नहीं, पर page पर जो है उसके faithful।
- Pages 2–4 transactions हैं। हर row के 5 columns हैं: date, description, debit, credit, balance। Bank के PDF से header row हर sheet का first row है।
- Pages 5–6 totals और fine print हैं। Reconciliation के लिए mostly useless; ignore करें।
आप pages 2–4 select करते हैं, rows copy करते हैं, master workbook में paste करते हैं। पाँच seconds की cleanup — debit/credit cells का couple जहाँ bank के PDF ने strange spacing convention use की और हमारे column detector ने उन्हें slightly differently split किया। Click, click, done। बाकी दो statements के लिए दोहराएँ। Total time: लगभग 5 minutes। Adobe Acrobat के through same job roughly same time होगा, plus $19.99 subscription। SmallPDF के through: slower upload step, plus bank का data अब SmallPDF के server पर है।
क्या preserve करता है, क्या नहीं
Honest expectation-setting frustration बचाता है। यहाँ है क्या conversion survive करता है और क्या नहीं:
| Feature | क्या होता है |
|---|---|
| Cell text और numbers | Exactly preserved जैसे PDF.js पढ़ता है |
| Row order | Preserved (हर page के top to bottom) |
| Column order | Preserved (हर row के left to right) |
| Header row | Sheet का first row बनती है (कोई special "header" status apply नहीं) |
| Multi-page tables | One sheet per page — table sheets पर split है, आप Excel में recombine करेंगे |
| Merged cells | Best-effort: value merge के leftmost cell में जाती है |
| Borders, colors, fonts | Stripped — values only |
| Formulas | Not applicable — PDFs formulas carry नहीं करतीं, सिर्फ computed values |
| Scanned tables | काम नहीं करता — no OCR। Image PDFs empty आती हैं। |
| Multi-column page layout (e.g. magazine columns) | दोनों columns spreadsheet में side-by-side end होते हैं — आमतौर पर वो नहीं जो आप चाहते |
| Cells में embedded images | Stripped — उनके लिए Extract PDF Images देखें |
अगर आपकी particular PDF पर column boundary गलत land होती है — जैसे converter ने दो columns merge कर दिए जो separate होने चाहिए थे क्योंकि उनका horizontal gap 8pt के बजाय 6pt था — fix Excel खुद में है, हमारे tool में नहीं। Column select करें, Data → Text to Columns → Fixed Width → boundary को right spot पर drag करें। 30 seconds। Alternative — हमारे widget में users के column boundaries manually drag करने के लिए UI बनाना — tool की complexity 5% conversions के लिए double करता जहाँ यह help करता। Simplicity Pledge कहता है: one job करो। हम करते हैं।
Scanned PDFs और OCR के बारे में
किसी भी PDF converter पर सबसे common "tool ने काम नहीं किया" report है: मैंने scan drop किया, result empty था. यहाँ क्यों, और क्या करना है।
Scanned PDF page की picture है PDF metadata में wrapped। File के अंदर कोई text नहीं है — हर "letter" pixel pattern है। PDF.js, जब scan से text extract करने को कहा जाता है, तो शून्य text fragments ढूंढता है और हमें कुछ नहीं देता। तो हमारे row/column detector के पास cluster करने को कुछ नहीं है, और .xlsx output empty है। यह bug नहीं है जिसे हम इस tool में fix कर सकते; यह input tool के पढ़ने वाले से अलग kind of object होने का है।
क्या करें: पहले PDF को OCR करें। Optical Character Recognition pixels को text fragments में वापस convert करता है — एक बार वो हो गया, आपके पास extractable text के साथ "real" PDF है, और converter काम करेगा। Options:
- Adobe Acrobat Pro के पास built-in OCR है (Tools → Recognize Text)। चलाएँ, save करें, फिर result को यहाँ run करें।
- macOS Preview recent macOS versions पर PDFs खोलने पर auto-OCR करता है। Copy save करें।
- Tesseract (open source, command line) — Homebrew या apt से install करें, अपनी PDF पर run करें।
- Google Drive — upload करें, "Open with Google Docs," और Drive contents OCR करता है। Privacy note: आपकी PDF अब Google में है।
हम बाद में in-browser OCR tool add कर सकते हैं (tesseract.js browser में काम करता है, बस slow), पर यह text-based extraction से substantially अलग operation है और अपने tool deserve करता है।
Privacy whole reason है यह browser में exist करता है
PDF-to-Excel converters mostly cloud-based होने का reason simple है: vendor के लिए हर user के browser में fast PDF parser ship करने से server पर conversion चलाना easier है। User की privacy trade — "हमें अपनी PDF दो, हम delete करने का promise करते हैं" — easier engineering choice की cost है।
Microapp ने purposely harder engineering choice pick किया। PDF.js आपके browser में चलता है, fast, किसी भी modern device पर। SheetJS आपके browser में चलता है, fast, किसी भी modern device पर। कोई reason नहीं है कि conversion किसी और की machine पर होनी है — except कि vendor के लिए इसे नहीं होने देना slightly ज़्यादा काम है।
तो हमने slightly ज़्यादा काम किया। Result: आपका bank statement, salary table, customer list, contract — आप जो भी PDF convert कर रहे हैं — आपके laptop पर रहता है। Microapp page हमारे CDN से loaded; conversion locally चलती है; .xlsx locally built होती है और local download blob के रूप में offered होती है। Convert के दौरान शून्य network traffic। आप DevTools से verify कर सकते हैं। यह marketing promise नहीं है — यह architecture है।
संबंधित tools
Tools जो PDF से Excel Converter के साथ naturally pair करते हैं:
- PDF से Text Extract करें — PDF से running prose pull करता है (reading order, tabular नहीं)। जब आपकी PDF tabular नहीं है तब right pick।
- PDF से Images Extract करें — PDF से embedded photos को उनके original resolution पर pull करता है।
- Split PDF — converting से पहले बहुत बड़ी PDF को smaller files में break करें (200 pages से past helpful)।
- PDF Merger — converting से पहले multiple PDFs को एक में combine करें (monthly statements batch करने के लिए useful)।
- Excel से PDF — reverse direction। Workbook को PDF में वापस बदलें।
- PDF Page Count — convert करने से पहले PDF की length पर quick check।
- PDF Redact — source PDF share करने से पहले sensitive fields को black out करें।
Microapp rent कैसे pay करता है: clean pages और AI work near-cost पर के लिए annual membership; non-members को same tools ads के साथ मिलते हैं। दोनों तरह, Microapp जो भी dollar कमाता है उसका 10% charity में जाता है — off the top, audited, published quarterly। PDF से Excel Converter same standard पर built ~115 microapps में से एक है। Premium quality, सबके लिए.
Frequently asked questions
Table actually कैसे detect होती है?
PDF.js हमें जो text fragments देता है उन पर two-step heuristic। Step one: fragments को Y-coordinate से cluster करें — fragments जो vertically एक-दूसरे के लगभग 5pt के अंदर हैं उन्हें same row माना जाता है। Step two: हर row के अंदर, fragments को left-to-right sort करें और जहाँ भी adjacent fragments के बीच horizontal gap लगभग 8pt से ज़्यादा हो (inter-word spacing से wider पर typical table gutters से narrower) वहाँ separate columns में split करें। यह heuristic है, magic नहीं — real tables पर अच्छे से काम करता है, उस text पर कम जो just columns में laid out होता है।
क्या यह merged cells handle करता है?
नहीं। PDFs में "merged cells" का structural concept नहीं है — उनमें page पर visually-positioned text है, और merged cell बस single text fragment है जो दो column positions span करता है। Converter उस fragment को एक cell में place करता है (leftmost जिससे overlap करता है)। अगर आपको merged cells preserved चाहिए, तो conversion के बाद Excel में manually merge करना होगा — पर हमारे experience में, downstream tools unmerged cells के साथ better काम करते हैं।
अगर मेरी PDF में multiple pages हों तो क्या?
Output workbook में आपको one sheet per page मिलती है, "Page 1", "Page 2", etc. नामित। Total pages 200 पर cap करते हैं (text-extraction के 500 से higher set क्योंकि cluster-and-write step per page heavier है)। अगर आपकी PDF longer है, पहले हमारे PDF Splitter से split करें और हर chunk separately convert करें।
यह Adobe Acrobat या paid converter के साथ कैसे compare करता है?
Adobe Acrobat (और ABBYY, Foxit, etc.) decades पर tuned multi-pass table-detection algorithms के साथ ship करते हैं — line detection, scanned tables के लिए OCR fallback, header recognition, footnote handling। वे edge cases पर better हैं: बिना borders वाली tables, merged cells वाली tables, scanned PDFs (जिन्हें हम बिल्कुल handle नहीं करते — कोई OCR नहीं)। Common case के लिए — PDF जो literally spreadsheet का export है, या financial report जो structurally tabular है — हमारा tool $0 और zero upload के साथ 80% तक पहुँचाता है। जब आपको last 20% चाहिए तो Adobe use करें।
क्या मेरी PDF actually upload नहीं होती?
सही। PDF.js (library जो Firefox internally PDFs render करने के लिए use करता है) आपके browser में चलता है। SheetJS (.xlsx encoder) भी आपके browser में चलता है। आपकी bytes file system से browser memory में .xlsx download तक जाती हैं — कभी server पर नहीं। Convert के दौरान browser का network tab check करें: शून्य outbound requests।
मेरी prose PDF Excel में single column जैसी क्यों दिखती है?
क्योंकि structurally यही है। Running text के paragraphs में column split trigger करने के लिए horizontal gaps wide नहीं हैं — words single-space gaps से separated होते हैं, हमारे 8pt threshold के well under। Converter correctly हर line को one cell के रूप में identify करता है। अगर आप हर line को column A के अपने cell में चाहते हैं, यह actually काम कर रहा है — अगर आप words को columns पर split करना चाहते हैं, आप probably Extract Text from PDF चाहते हैं और फिर Excel खुद में Text-to-Columns step।
Scanned PDFs के बारे में क्या?
काम नहीं करता — हमारे other PDF tools जैसा। Scanned PDFs text की images हैं, text नहीं। उन्हें convert करने के लिए OCR (Optical Character Recognition) चाहिए, जो fundamentally अलग operation है और कुछ नहीं जो यह tool करता है। पहले scan को OCR tool (Adobe Acrobat, macOS Preview, या Tesseract) से run करें, OCR'd PDF save करें, फिर वो यहाँ run करें।
Max file size क्या है?
100 MB और 200 pages। Cluster-and-encode step memory-heavy है; हम इसे page-count tool से lower cap करते हैं। बहुत बड़ी PDFs के लिए, पहले PDF Splitter से split करें।