כל-זכות מבקשים עזרה בחילוץ טקסט מקבצי pdf בקידוד מוזר

שלום לכולם,
כדי לעדכן באתר כל-זכות תכנים שמקורם במשרד הרווחה, אנחנו צריכים להיות מסוגלים להעתיק תוכן מתוך הוראות התע"ס. ההוראות מפורסמות בפורמט PDF, אבל אנחנו לא יודעים לפענח את הקידוד שלהן; בהעתקה מתקבלים טקסטים כגון “➎➀❼10➂☎❹❺☎❸9➌❹❸”. דוגמה לקובץ כזה באתר משרד הרווחה.

חילצתי חלק מהמידע באמצעות OCR (השתמשתי ב-Google Docs לצורך זה), אך מדובר בתהליך מסורבל ואני מנסה להקל על העורכים אצלנו. למישהו יש מושג איך לטפל בקידוד הזה?

תודה,
דרור

ניסיתי לשחק עם זה - ללא הצלחה. מחיפוש באינטרנט זה נראה כבעיה לא כ"כ פתורה (לפחות אני לא מצאתי שום דבר).
אם תמצא משהו - תעדכן.

הנה קטע קוד קצר שעושה (חלק) מהעבודה (מביא את העברית)- אפשר לשפר אותו בשביל
שיביא גם את שאר השפות, מספרים וניקוד וגם יהפוך את הסדר שלהן.

a="➁❽❽➄❽➍☎❽❹➈❽➌"ֿ

print ‘’.join([unichr(ord(x)-10100+1488) for x in a.decode(‘utf8’)])

נותן: םיינישѪיופיר

אדם

לייק 1

אדם, תודה -זה מעניין, אבל בהחלט דורש עבודה. ייתכן שבכל זאת ל-OCR יש יתרונות במקרה הזה. נראה שזה הזמן ללמוד להתקין ולהשתמש ב-hocr/Tesseract - אח"כ אשווה תוצאות. תודה שוב :slight_smile:

היי

זה עבד?

עם איזו ספריה/שיטה אתה ממיר pdf (בעברית) לטקסט בכלל?

ויטאלי, בשלב ראשון השתמשתי בשני אתרים:

  • Google Docs (יש להעלות את ה-PDF, מתבצעת המרה). במקרה של הקבצים האלה, נאלצתי קודם להסב אותם ל-PDF תמונה, כי אחרת גוגל הציג את הג’יבריש במקום לעשות OCR. הם טוענים שזה מוגבל ל-10 עמודים ראשונים.
  • newocr.com עובד גם הוא (אפילו קצת טוב יותר מ-Google Docs), אבל דורש המרה דף-דף (יש להם גם API חינמי מוגבל שאולי יאפשר להתגבר על זה). מכיוון שהם כותבים שהם מתבססים על Tesseract, זה היה הכיוון שלי.

מכיוון שהמטרה שלי היא להגיע למצב שאני יכול לעשות את זה במאסה בקלות, התכוונתי לנסות את Tesseract; רק שההתקנה מהמאגר (לינוקס מינט) מתרסקת, וזה לא בעדיפות גבוהה מאוד, אז נאלצתי לעבור בינתיים לנושאים אחרים במקום לפתור את זה.

נ.ב. יש גם Wrappers ל-Tesseract כמו pdfsandwich, וממשקים גרפיים למיניהם.