נירמול שמות רשויות

שאלה שהגיעה אלי:

יש לי 4 קבצים עם נתונים סטטיסטיים על רשויות מקומיות (בלי מספרי רשות), ואני רוצה להצליב מידע בניהם. אלא שבכל קובץ שמות הרשויות כתובות קצת אחרת (קריית או קרית, אום אלפחם או אום אל פחם וכדומה). ברור לי שאיפה שהוא מישהו כבר כתב קוד לטיוב נתונים אוטומטי לשמות רשויות ואני מחפשת את האיש הזה…

מה אומרים? יצא למישהו פה להתעסק בזה?

כן, יש לנו קוד לfingerprinting של שמות ישויות במפתח התקציב, יכול להיות שזה יעזור

אם אני לא טועה בהבנת המקרה ניתן גם להיעזר ב-api של OSM: לשלוח את גרסאות השם השונות ולקבל מזהה יחיד לעיר/ישוב. @aaa - נדמה לי שכך פתרת סוגיות של הקלדות שונות (ובשפות) בפרוייקט שאלון תסמיני הקורונה, לא?

כן, כשיש מספר שמות חליפיים לאותה הרשות (נפוץ בישראל בעיקר ביישובים והרשויות הערביות), osm יכול לעזור. את הניתוח עשיתי אגב על קובץ מידע סטטי של osm שהורדתי למחשב, ולא דרך ה-api.

ספריה שימושית בפייתון שעוזרת מאוד במקרים כאלה נקראת fuzzywuzzy.

‪On Mon, Jan 25, 2021 at 10:27 AM ‫Noam Cas דרך פורום הסדנא לידע ציבורי‬‎ info@hasadna.org.il wrote:‬

לייק 1