ما يفعله محول PDF إلى Excel
ملف PDF يُخزّن النص كشظايا موضوعة — كل كلمة تعرف موقعها (x, y) على الصفحة، لكن لا شيء في الملف يعرف ما هو "صف" أو "عمود." محول PDF إلى Excel ينظر إلى تلك الشظايا، يجمعها في صفوف حسب الإحداثي Y، يقسّم كل صف إلى أعمدة حيث توجد فجوة أفقية واسعة، ويكتب النتيجة في دفتر .xlsx حقيقي. ورقة واحدة لكل صفحة PDF. افتحه في Excel أو Google Sheets أو Numbers أو LibreOffice Calc. بدون رفع، بدون علامة مائية، بدون تسجيل.
الأنبوب كله يعمل داخل متصفحك. PDF.js (مكتبة PDF مفتوحة المصدر من Mozilla — نفس التي يستخدمها Firefox داخلياً) يقرأ PDF لك ويعطينا شظايا نص بإحداثيات. SheetJS يُرمّز النتيجة في صيغة .xlsx الثنائية. كلتا المكتبتين تعملان على وحدة المعالجة المركزية لديك، في تبويبك. افتح DevTools، بدّل إلى تبويب الشبكة، اضغط حوّل. صفر طلبات صادرة. بياناتك لا تغادر جهازك.
تحذير صريح في القمة: هذا يعمل جيداً على PDFs التي هي بالفعل جداول — التقارير المالية، الكشوف، الصادرات من تطبيق جداول، إفراغات بيانات حكومية، مرفقات اجتماعات المجلس. يعمل أقل جودة على PDFs النثرية (وثيقة عمود نص تنهار إلى عمود واحد من قيم خلايا، وهو صحيح لكن ربما ليس ما أردت) ولا يعمل أبداً على PDFs الممسوحة (صورة للنص، وليست نصاً — تلك وظيفة OCR، انظر أدناه). معرفة ما تفعله الأداة وما لا تفعله مقدماً يوفر دقيقة مضيعة.
متى PDF إلى Excel هي الأداة الصحيحة
الجداول تعلق في PDFs كل يوم. التقارير الفصلية، كشوف الحسابات البنكية، النماذج الضريبية، فواتير الموردين، إصدارات البيانات الحكومية، صادرات MIS الداخلية، الأوراق الأكاديمية بجداول النتائج — أينما عاش جدول أصلاً، قرر أحدهم في النهاية "مشاركة نسخة PDF." الأرقام موجودة على الصفحة؛ إنها فقط ليست في صيغة يمكنك جمعها، تصفيتها، فرزها، أو محورها.
مواقف حقيقية تفيد فيها هذه الأداة:
- تسوية كشف الحساب البنكي. بنكك يرسل كشوفاً شهرية كـ PDFs. تريد المعاملات في جدول حتى تستطيع تصنيفها، جمعها حسب التاجر، وتغذيتها لمحاسبك. المعاملات جدول على كل صفحة كشف.
- فواتير الموردين. مورد يرسل 6 فواتير شهرياً كـ PDFs. سير عمل الذمم الدائنة يحتاجها كصفوف في دفتر حتى تستطيع جمعها حسب الشهر وتسويتها مقابل أوامر الشراء.
- بيانات البحث. وكالة حكومية، ورقة أكاديمية، أو تقرير صناعي ينشر جدول بيانات رئيسياً داخل تقرير PDF. تريده في Excel لرسمه أو ربطه ببياناتك.
- تقارير المبيعات من CRM لديك. CRM لديه زر "Download as PDF" لكن لا "Download as Excel" — أو فقط في الفئة المدفوعة. PDF يحتوي على الجدول الذي ستدفع 20 دولاراً/مقعد/شهر لتصديره بشكل مختلف.
- قوائم الطلاب أو سجلات الحضور. معلم أو إداري يحصل على قائمة كـ PDF، يحتاجها في جدول لأخذ الحضور، تقدير الدرجات، أو مشاركتها مع البدلاء.
في كل حالة، البيانات الأساسية جدولية — صفوف وأعمدة ثابتة — و PDF هو فقط الغلاف الذي اختاره أحدهم. المحول يجرد الغلاف ويعطيك الجدول.
كيفية استخدام محول PDF إلى Excel
شاشة واحدة. منطقة إسقاط في الأعلى، تحذير قصير يوضح ما يعمل وما لا، زر تحويل أدناه.
- اسحب أو اختر PDF لديك. حتى 100 MB و 200 صفحة.
- اقرأ التحذير الأصفر — يخبرك بأي نوع PDF يعمل عليه (الجداول) وأي لا (النثر، المسح، التخطيطات المعقدة).
- اضغط "حوّل إلى Excel." الأداة تقرأ كل صفحة، تجمع شظايا النص في شبكة ثنائية الأبعاد، وتُصدر ورقة واحدة لكل صفحة PDF.
- حمّل ملف .xlsx (مُسمى باسم PDF المصدري —
invoice.pdf→invoice.xlsx). افتحه في Excel أو Google Sheets أو Numbers أو LibreOffice Calc. - تفحّص النتيجة. حدود الأعمدة هي أفضل تخمين بناءً على الفجوات الأفقية — إذا هبط تقسيم عمود خطأ، أصلحه في تطبيق الجداول لديك بـ Text-to-Columns أو بتحرير الخلايا مباشرة.
هذا كل شيء. لا "سجّل لفتح تحويل أكثر من 5 صفحات." لا حد فئة مجانية 10 MB. لا علامة مائية مختومة عبر بياناتك.
كيف يعمل اكتشاف الصف والعمود فعلاً
هذا الجزء المثير للاهتمام، ويستحق الفهم لأنه يشرح كلاً من المكاسب وأنماط الفشل.
PDF.js يعطينا قائمة شظايا نص لكل صفحة. كل شظية لها: السلسلة التي تحتويها، موضع x/y على الصفحة (بالنقاط — 72 لكل بوصة)، وعرض. صفحة نموذجية مئات إلى آلاف الشظايا. مهمتنا: تحويل ذلك إلى شبكة.
الخطوة الأولى — جمع الصفوف حسب Y. الشظايا التي إحداثياتها Y ضمن ~5 نقاط من بعضها تُعتبر نفس الصف. 5pt تقريباً نصف سطر نص جسم، فهذا يمتص التباين الطبيعي في خط الأساس في أي صف جدول معين بينما يفصل صفاً عن آخر. النتيجة قائمة مرتبة من الصفوف، من الأعلى للأسفل.
الخطوة الثانية — تقسيم الأعمدة حسب فجوات X. داخل كل صف، الشظايا مُرتبة من اليسار لليمين. حيث تتجاوز الفجوة الأفقية بين الشظايا المتجاورة ~8 نقاط، نُدخل حد عمود. 8pt أوسع من تباعد الكلمات الداخلي النموذجي (المسافة حوالي 3pt في خط 10pt) لكن أضيق من الفجوة التي يستخدمها معظم مصممي الجداول بين الأعمدة. فالكلمات المتجاورة في نفس العمود تبقى في نفس الخلية؛ الأعمدة المتجاورة تنقسم.
هذه هي الخوارزمية بأكملها. استدلالان مضبوطان لطريقة وضع الجداول الحقيقية فعلاً. لا تعلم آلي، لا API سحابي، لا رفع وانتظار الذكاء الاصطناعي لدينا. فقط هندسة. تعمل جيداً على الجداول الحقيقية لنفس السبب: الجداول الحقيقية هي الهندسة التي يتوقعها.
حيث تتعثر: "جدول" هو في الواقع صفحة متعددة الأعمدة من النثر (فكر في مقالة مجلة، ورقة مؤتمر بعمودين) ستُقسم إلى أعمدة بواسطة كاشف فجوة X. هذا الخوارزمية تفعل بالضبط ما يُفترض أن تفعله — توجد فجوات أفقية واسعة بين كتلتي النص. إذا أردت النثر عائداً بدلاً من ذلك، استخدم استخراج نص PDF، الذي يحفظ ترتيب القراءة.
بدائل Big Software — والصفقة التي يقدمها كل واحد
لديك ثلاثة خيارات أخرى للحصول على الجداول من PDF، وكل واحد يأتي بضريبته.
Adobe Acrobat Pro (19.99 دولاراً شهرياً، أو 239.88 دولاراً سنوياً) هو المعيار الذهبي. لديه أنبوب اكتشاف جدول حقيقي مضبوط على مدى عقود — اكتشاف الأسطر، احتياطي OCR للجداول الممسوحة، التعرف على الرأس، معالجة الحواشي. لـ PDFs بدون هيكل جدول واضح (بلا حدود، خلايا مدمجة، تخطيطات غير منتظمة)، إنه أفضل منا. السعر هو السعر: اشتراك شهري دائم سواء حوّلت 100 PDF شهرياً أو واحداً. معظم من يمتلكون Acrobat يستخدمونه لـ 5% مما يفعله.
iLovePDF و SmallPDF و PDF24 و ABBYY FineReader Online و Convertio — حشد "الرفع أولاً." يأخذون PDF الخاص بك، يرسلونه إلى خادم في مكان ما، يُشغّلون تحويلاً هناك، يرسلون لك .xlsx عائداً. نفس جودة التحويل كأداتنا في الحالات السهلة؛ أحياناً أفضل في الحالات الصعبة (بعضهم يُجري OCR على الجداول الممسوحة؛ نحن لا). المقايضة: PDF الخاص بك الآن على خادم شخص ما. لـ PDF بيانات عامة، من يهتم. لكشف حساب بنكي، جدول رواتب، عقد ببنود، وثيقة موارد بشرية — لقد أرسلتها بالبريد الإلكتروني لغريب ووثقت أنه سيحذفها. بالإضافة إلى حدود معدل (SmallPDF يحدك بتحويلين قبل التسجيل؛ Sejda بـ 3/ساعة) وعرض Pro Plan على كل صفحة.
"انسخ والصق من PDF إلى Excel." جربه مرة على جدول متعدد الأعمدة وشاهد الأعمدة تنهار إلى عمود واحد من قيم خلايا. PDF نسخ ولصق يحفظ النص لكن يتجاهل التخطيط — هذه بالضبط المشكلة التي صُمم لها اكتشاف الأعمدة لدينا. يعمل بشكل جيد لقائمة عمود واحد. ينهار على أي شيء أوسع.
عرض Big Software دائماً: التحويل "مجاني!" لكن التجربة مغلقة. الفئة المجانية محدودة بملفين، 10 صفحات لكل واحد، بعلامة مائية. فئة Pro تفتح الباقي. سجّل لإزالة الحد. اشترك لإزالة العلامة المائية. نحن نخوض معركة مع هذا النموذج عمداً. المتصفح يقوم بالعمل. لا توجد تكلفة هامشية لنا. فلا يوجد سعر هامشي لك. "يوجد حل لكل شيء" لا يعني "يوجد حل مدفوع لكل شيء."
مثال عملي: كشف حساب بنكي بـ 6 صفحات
أنت تُسوّي المصاريف للربع. بنكك يرسل كشفاً شهرياً كـ PDF. ست صفحات، ثلاثة كشوف في مجلد. كل كشف لديه رأس (الصفحة 1 بمعلومات الحساب، الملخص)، ثلاث صفحات معاملات في جدول من 5 أعمدة (التاريخ، الوصف، المدين، الدائن، الرصيد)، وصفحة أخيرة من الطباعة الدقيقة.
ما يحدث عندما تُسقط كشفاً في المحول:
- تُسقط
statement-2026-04.pdfعلى منطقة الإسقاط. الأداة تُظهر عدد الصفحات (6) وزر تحويل. - اضغط حوّل إلى Excel. حوالي ثانيتين لاحقاً، يُنشّط التحميل.
- تفتح
statement-2026-04.xlsx. لها ست أوراق: "Page 1" و "Page 2" ... و "Page 6". - الصفحة 1 لديها رأس الحساب — الاسم، العنوان، رقم الحساب — مُجمّعة في صفوف تقريبية. ليس مفيداً جداً كجدول، لكنه مخلص لما على الصفحة.
- الصفحات 2-4 هي المعاملات. كل صف لديه 5 أعمدة: التاريخ، الوصف، المدين، الدائن، الرصيد. صف الرأس من PDF البنك هو الصف الأول من كل ورقة.
- الصفحات 5-6 هي الإجماليات والطباعة الدقيقة. غير مفيدة في الغالب للتسوية؛ تجاهلها.
تختار الصفحات 2-4، تنسخ الصفوف، تلصقها في دفترك الرئيسي. خمس ثوانٍ من التنظيف — بضع خلايا مدين/دائن حيث استخدم PDF البنك عرف تباعد غريباً وكاشف عمودنا قسّمها بشكل مختلف قليلاً. ضغطة، ضغطة، انتهى. كرر للكشفين الآخرين. الوقت الإجمالي: حوالي 5 دقائق. نفس العمل عبر Adobe Acrobat سيكون تقريباً نفس الوقت، بالإضافة إلى اشتراك 19.99 دولاراً. عبر SmallPDF: خطوة رفع أبطأ، بالإضافة إلى أن بيانات البنك الآن على خادم SmallPDF.
ما يحفظه، ما لا يحفظه
وضع التوقعات بصدق يوفر الإحباط. هذا ما يبقى من التحويل وما لا:
| الميزة | ماذا يحدث |
|---|---|
| نص وأرقام الخلية | محفوظة بالضبط كما يقرأها PDF.js |
| ترتيب الصفوف | محفوظ (من الأعلى للأسفل من كل صفحة) |
| ترتيب الأعمدة | محفوظ (من اليسار لليمين من كل صف) |
| صف الرأس | يصبح الصف الأول من الورقة (بدون حالة "رأس" خاصة مطبقة) |
| الجداول متعددة الصفحات | ورقة واحدة لكل صفحة — الجدول مُقسّم عبر الأوراق، ستعيد دمجه في Excel |
| الخلايا المدمجة | أفضل جهد: القيمة تذهب في أقصى يسار خلية الدمج |
| الحدود، الألوان، الخطوط | مُجردة — القيم فقط |
| الصيغ | لا تنطبق — PDFs لا تحمل صيغاً، فقط قيماً محسوبة |
| الجداول الممسوحة | لا تعمل — لا OCR. PDFs الصور تخرج فارغة. |
| تخطيط صفحة متعدد الأعمدة (مثل أعمدة مجلة) | كلا العمودين ينتهيان جنباً إلى جنب في الجدول — عادة ليس ما تريد |
| الصور المُدمجة في الخلايا | مُجردة — انظر استخراج صور PDF لتلك |
إذا هبط حد عمود خطأً على PDF الخاص بك — مثلاً المحول دمج عمودين كان يجب أن يكونا منفصلين لأن فجوتهما الأفقية كانت 6pt بدلاً من 8pt — الإصلاح في Excel نفسه، وليس في أداتنا. اختر العمود، Data → Text to Columns → Fixed Width → اسحب الحد للنقطة الصحيحة. 30 ثانية. البديل — بناء واجهة للمستخدمين لسحب حدود الأعمدة يدوياً في أداتنا — سيُضاعف تعقيد الأداة لـ 5% من التحويلات حيث ستساعد. تعهد البساطة يقول: افعل وظيفة واحدة. نحن نفعل.
عن PDFs الممسوحة و OCR
التقرير الأكثر شيوعاً "الأداة لم تعمل" على أي محول PDF هو: أسقطت مسحاً، النتيجة كانت فارغة. إليك لماذا، وماذا تفعل.
PDF ممسوح هو صورة لصفحة ملفوفة في بيانات وصفية PDF. لا يوجد نص داخل — كل "حرف" نمط بكسل. PDF.js، عند طلب استخراج النص من مسح، يجد صفر شظايا نص ولا يعطينا شيئاً. فكاشف صف/عمود لدينا ليس لديه شيء ليجمعه، ومخرج .xlsx فارغ. هذا ليس خطأً يمكننا إصلاحه في هذه الأداة؛ إنه المدخل كائن من نوع مختلف عما تقرأه الأداة.
ما تفعله: OCR لـ PDF أولاً. التعرف الضوئي على الأحرف يحوّل البكسلات عائدة إلى شظايا نص — بمجرد القيام بذلك، لديك PDF "حقيقي" بنص قابل للاستخراج، والمحول سيعمل. الخيارات:
- Adobe Acrobat Pro لديه OCR مدمج (Tools → Recognize Text). شغّله، احفظ، ثم شغّل النتيجة من هنا.
- macOS Preview يُجري OCR تلقائياً على PDFs عند فتحها على نسخ macOS الحديثة. احفظ نسخة.
- Tesseract (مفتوح المصدر، سطر أوامر) — ثبّت عبر Homebrew أو apt، شغّل على PDF لديك.
- Google Drive — ارفع، "Open with Google Docs،" و Drive يُجري OCR على المحتويات. ملاحظة خصوصية: PDF الخاص بك الآن في Google.
قد نُضيف أداة OCR داخل المتصفح لاحقاً (tesseract.js يعمل في المتصفح، فقط بطيء)، لكنها عملية مختلفة جوهرياً عن الاستخراج المعتمد على النص وتستحق أداتها الخاصة.
الخصوصية هي السبب الكامل لوجود هذا في المتصفح
سبب أن محولات PDF إلى Excel معتمدة في الغالب على السحابة بسيط: من الأسهل على البائع تشغيل التحويل على خادمه من شحن محلل PDF سريع لمتصفح كل مستخدم. مقايضة خصوصية المستخدم — "أعطنا PDF الخاص بك، نعد بحذفه" — هي تكلفة الاختيار الهندسي الأسهل.
Microapp اختار الاختيار الهندسي الأصعب عمداً. PDF.js يعمل داخل متصفحك، بسرعة، على أي جهاز حديث. SheetJS يعمل داخل متصفحك، بسرعة، على أي جهاز حديث. لا يوجد سبب لأن يحدث التحويل على جهاز شخص آخر — إلا أنه عمل أكثر قليلاً للبائع ألا يفعل.
فنحن قمنا بالعمل الأكثر قليلاً. النتيجة: كشف حسابك البنكي، جدول رواتبك، قائمة عملائك، عقدك — أياً كان PDF الذي تحوّله — يبقى على حاسوبك. صفحة Microapp حُمّلت من CDN لدينا؛ التحويل يعمل محلياً؛ .xlsx يُبنى محلياً ويُقدّم كـ blob تنزيل محلي. صفر حركة شبكة أثناء التحويل. يمكنك التحقق بـ DevTools. هذا ليس وعد تسويق — إنه المعمارية.
أدوات ذات صلة
أدوات تتزاوج طبيعياً مع محول PDF إلى Excel:
- استخراج النص من PDF — يسحب النثر الجاري من PDF (ترتيب القراءة، وليس جدولياً). الاختيار الصحيح عندما لا يكون PDF جدولياً.
- استخراج الصور من PDF — يسحب الصور المُدمجة من PDF بدقتها الأصلية.
- تقسيم PDF — اكسر PDF كبير جداً إلى ملفات أصغر قبل التحويل (مفيد بعد 200 صفحة).
- PDF Merger — اجمع ملفات PDF متعددة في واحد قبل التحويل (مفيد لتجميع الكشوف الشهرية).
- Excel إلى PDF — الاتجاه العكسي. حوّل دفتراً عائداً إلى PDF.
- عد صفحات PDF — فحص سريع لطول PDF قبل التحويل.
- حجب PDF — اطمس الحقول الحساسة قبل مشاركة PDF المصدري.
كيف يدفع Microapp الإيجار: عضوية سنوية لصفحات نظيفة وعمل ذكاء اصطناعي بسعر التكلفة تقريباً؛ غير الأعضاء يحصلون على نفس الأدوات مع إعلانات. في كلتا الحالتين، 10% من كل دولار يكسبه Microapp يذهب للجمعيات الخيرية — من القمة، مُدقق، يُنشر فصلياً. محول PDF إلى Excel واحد من ~115 microapp مبنية بنفس المعيار. جودة مميزة، للجميع.
الأسئلة الشائعة
كيف يُكتشف الجدول فعلاً؟
استدلال بخطوتين على شظايا النص التي يعطينا إياها PDF.js. الخطوة الأولى: جمع الشظايا حسب الإحداثي Y — الشظايا التي ضمن ~5pt من بعضها عمودياً تُعتبر نفس الصف. الخطوة الثانية: داخل كل صف، رتّب الشظايا من اليسار لليمين وقسّمها إلى أعمدة منفصلة حيث تتجاوز الفجوة الأفقية بين الشظايا المتجاورة ~8pt (أوسع من تباعد الكلمات الداخلي لكن أضيق من فجوات الجداول النموذجية). إنها استدلال، وليست سحراً — تعمل جيداً على الجداول الحقيقية، أقل جودة على نص يحدث أن يُخطط في أعمدة.
هل يتعامل مع الخلايا المدمجة؟
لا. PDFs ليس لديها مفهوم هيكلي لـ "الخلايا المدمجة" — لديها نص موضوع بصرياً على صفحة، والخلية المدمجة هي مجرد شظية نص واحدة تحدث أن تمتد عبر ما سيكون موضعَي عمود. المحول يضع تلك الشظية في خلية واحدة (أقصى يسار التي تتداخل معها). إذا احتجت الحفاظ على الخلايا المدمجة، ستحتاج لدمجها يدوياً في Excel بعد التحويل — لكن في تجربتنا، الأدوات اللاحقة تعمل أفضل مع خلايا غير مدمجة على أي حال.
ماذا لو كان PDF متعدد الصفحات؟
تحصل على ورقة واحدة لكل صفحة في دفتر المخرج، مُسماة "Page 1" و "Page 2" وهكذا. إجمالي الصفحات محدود بـ 200 (أعلى من 500 لاستخراج النص لأن خطوة الجمع والكتابة أثقل لكل صفحة). إذا كان PDF أطول، قسّمه أولاً بأداة PDF Splitter لدينا وحوّل كل قطعة منفصلة.
كيف يقارن هذا بـ Adobe Acrobat أو محول مدفوع؟
Adobe Acrobat (و ABBYY و Foxit وغيرها) تشحن بخوارزميات اكتشاف جدول متعددة المرور مضبوطة على مدى عقود — اكتشاف الأسطر، احتياطي OCR للجداول الممسوحة، التعرف على الرأس، معالجة الحواشي. إنها أفضل في الحالات الحدية: الجداول بلا حدود، الجداول بخلايا مدمجة، PDFs الممسوحة (التي لا نتعامل معها أصلاً — لا OCR). للحالة الشائعة — PDF هو حرفياً تصدير لجدول، أو تقرير مالي هيكلياً جدولي — أداتنا تصل إلى 80% من الطريق مقابل 0 دولار وصفر رفع. استخدم Adobe عندما تحتاج الـ 20% الأخيرة.
هل PDF الخاص بي فعلاً لا يُرفع؟
صحيح. PDF.js (المكتبة التي يستخدمها Firefox داخلياً لعرض PDFs) يعمل داخل متصفحك. SheetJS (مُرمّز .xlsx) يعمل أيضاً داخل متصفحك. بياناتك تذهب من نظام ملفاتك إلى ذاكرة المتصفح إلى تنزيل .xlsx — أبداً إلى خادم. تحقق من تبويب الشبكة في متصفحك أثناء التحويل: صفر طلبات صادرة.
لماذا يبدو PDF النثري كعمود واحد في Excel؟
لأن هذا ما هو عليه، هيكلياً. الفقرات من النص الجاري ليس لديها فجوات أفقية واسعة بما يكفي لإطلاق تقسيم عمود — الكلمات مفصولة بفجوات مسافة واحدة، تحت عتبتنا 8pt بكثير. المحول يحدد بشكل صحيح كل سطر كخلية واحدة. إذا أردت كل سطر في خلية خاصة به في العمود A، هذا يعمل فعلاً — إذا أردت الكلمات مقسمة عبر أعمدة، تريد على الأرجح استخراج النص من PDF ثم خطوة Text-to-Columns في Excel نفسه.
ماذا عن PDFs الممسوحة؟
لا يعمل — مثل أدوات PDF الأخرى لدينا. PDFs الممسوحة هي صور للنص، وليست نصاً. تحويلها يتطلب OCR (التعرف الضوئي على الأحرف)، وهي عملية مختلفة جوهرياً وليست شيئاً تفعله هذه الأداة. مرّر المسح عبر أداة OCR أولاً (Adobe Acrobat أو macOS Preview أو Tesseract)، احفظ PDF المُعالج بـ OCR، ثم مرّر ذلك من هنا.
ما هو الحد الأقصى لحجم الملف؟
100 MB و 200 صفحة. خطوة الجمع والترميز ثقيلة الذاكرة؛ نحدها أقل من أداة عد الصفحات. لـ PDFs كبيرة جداً، قسّم أولاً بـ PDF Splitter.