כל-זכות מבקשים עזרה בחילוץ טקסט מקבצי pdf בקידוד מוזר

ffs · 18 בינואר,‏ 2016,‏ 4:14pm

שלום לכולם,
כדי לעדכן באתר כל-זכות תכנים שמקורם במשרד הרווחה, אנחנו צריכים להיות מסוגלים להעתיק תוכן מתוך הוראות התע"ס. ההוראות מפורסמות בפורמט PDF, אבל אנחנו לא יודעים לפענח את הקידוד שלהן; בהעתקה מתקבלים טקסטים כגון “➎➀❼10➂☎❹❺☎❸9➌❹❸”. דוגמה לקובץ כזה באתר משרד הרווחה.

חילצתי חלק מהמידע באמצעות OCR (השתמשתי ב-Google Docs לצורך זה), אך מדובר בתהליך מסורבל ואני מנסה להקל על העורכים אצלנו. למישהו יש מושג איך לטפל בקידוד הזה?

תודה,
דרור

ekeydar · 19 בינואר,‏ 2016,‏ 4:10pm

ניסיתי לשחק עם זה - ללא הצלחה. מחיפוש באינטרנט זה נראה כבעיה לא כ"כ פתורה (לפחות אני לא מצאתי שום דבר).
אם תמצא משהו - תעדכן.

aaa · 19 בינואר,‏ 2016,‏ 5:08pm

הנה קטע קוד קצר שעושה (חלק) מהעבודה (מביא את העברית)- אפשר לשפר אותו בשביל
שיביא גם את שאר השפות, מספרים וניקוד וגם יהפוך את הסדר שלהן.

a="➁❽❽➄❽➍☎❽❹➈❽➌"ֿ

print ‘’.join([unichr(ord(x)-10100+1488) for x in a.decode(‘utf8’)])

נותן: םיינישѪיופיר

אדם

ffs · 24 בינואר,‏ 2016,‏ 1:12pm

אדם, תודה -זה מעניין, אבל בהחלט דורש עבודה. ייתכן שבכל זאת ל-OCR יש יתרונות במקרה הזה. נראה שזה הזמן ללמוד להתקין ולהשתמש ב-hocr/Tesseract - אח"כ אשווה תוצאות. תודה שוב

Vitaliy_Liubimtsev · 27 בינואר,‏ 2016,‏ 12:00am

היי

זה עבד?

עם איזו ספריה/שיטה אתה ממיר pdf (בעברית) לטקסט בכלל?

ffs · 27 בינואר,‏ 2016,‏ 8:42pm

ויטאלי, בשלב ראשון השתמשתי בשני אתרים:

Google Docs (יש להעלות את ה-PDF, מתבצעת המרה). במקרה של הקבצים האלה, נאלצתי קודם להסב אותם ל-PDF תמונה, כי אחרת גוגל הציג את הג’יבריש במקום לעשות OCR. הם טוענים שזה מוגבל ל-10 עמודים ראשונים.
newocr.com עובד גם הוא (אפילו קצת טוב יותר מ-Google Docs), אבל דורש המרה דף-דף (יש להם גם API חינמי מוגבל שאולי יאפשר להתגבר על זה). מכיוון שהם כותבים שהם מתבססים על Tesseract, זה היה הכיוון שלי.

מכיוון שהמטרה שלי היא להגיע למצב שאני יכול לעשות את זה במאסה בקלות, התכוונתי לנסות את Tesseract; רק שההתקנה מהמאגר (לינוקס מינט) מתרסקת, וזה לא בעדיפות גבוהה מאוד, אז נאלצתי לעבור בינתיים לנושאים אחרים במקום לפתור את זה.

נ.ב. יש גם Wrappers ל-Tesseract כמו pdfsandwich, וממשקים גרפיים למיניהם.