אתר התמיכות הממשלתי - שאלת סקרייפינג

הי, זה אני מפעם.

אתר http://www.tmichot.gov.il/
אני מנסה לעבוד (בינתיים עם עצמי, אולי יבשיל למשהו מעניין ואולי לא) על “גירוד” הנתונים מפה - האם יש למישהו ניסיון עם האתר הספציפי הזה (בעצם נראה כמו פורטל ישירות של sap) האם יש סוגיות אבטחה מעצבנות (כמו שפעם פעם אכלנו בכנסת פתוחה) ?

אשמח לעזרה וכיוון
(לא מצאתי קטגוריה מתאימה לשאלה הזו אבל אם יש כזו אנא הפנו אותי)

נראה לי שמפתח התקציב עושה לזה סקרייפינג

והנתונים הגולמיים נמצאים פה

https://next.obudget.org/datapackages/supports/

כמו כן, יש גם API, redash והאתר של מפתח התקציב שמהם גם ניתן להשתמש בנתונים

לייק 1

אכן, מה שאורי אמר - אנחנו מגרדים את המידע הזה יומית.
אכלנו ואוכלים על זה הרבה חצץ אז מאוד ממליץ שתשתמש במה שיש לנו ואל תכניס את עצמך לעולם של כאב שלא לצורך…

תודה אורי ואדם! אני אכן לא מעוניין להכנס לעולם הכאב הזה שלא לצורך

מה שמעניין אותי זה השינויים. ולפי מה שהצצתי בdatapackage אתם מפרסמים את המידע המצרפי (כלומר מה שמעודכן לנקודה זו)
אז לכאורה -אם אני משתמש בAPI שלכם או בdatapackages ושומר את הנתונים ואתם מעדכנים על בסיס יומי אני יכול לייצר את הההפרשים בהשוואה בין הנתונים הקודמים למה שמעודכן עכשיו. אני מבין נכון?

אם כן - איפה אוכל למצוא הפנייה לתיעוד של הapi של תקציב פתוח?

יש כאן תיעוד יחסית עדכני:

https://github.com/OpenBudget/BudgetKey/blob/master/documentation/UsingTheAPI.md

וכן - תוכל לחלץ שינויים מתוך מעקב אחרי המידע - אם כי אני לא יודע מה תדירות המידע באתר הממשלתי עצמו.

‪On Fri, Oct 9, 2020 at 4:55 PM ‫Alon Nisser דרך פורום הסדנא לידע ציבורי‬‎ [email protected] wrote:‬

תודה אסתכל

הי @aaa חוזר לזה קצת באיחור. עבדתי (עם חבר) על הנתונים שם. ונדמה לי שיש פערים משמעותיים. כלומר הmetadata מראה עדכון יומי אבל המידע עצמו מתעדכן באיחור משמעותי (אני מדבר על הקבצים, זה נכון כמובן גם על הapi אבל מראש הוא קצת מוגבל למה שאני צריך) , כך שהוא “מפספס” חלק מהעדכונים

זו סוגיה ידועה ונבחרת? יכול להגיד אולי מה הרזולציה של העדכון שאפשר לצפות לה ?
או שזו בעיה חדשה ושצפויה לתיקון כלשהו (ושאולי אני יכול לסייע בה אכשהו בלי לצלול לתהומות כל הקוד של הפרוייקט שבכנות לא חושב שאעשה כרגע )

יכול לתת דוגמאות אם זה מסייע לאתר

הי @Alon_Nisser סליחה שפספסתי את ההודעה (ותודה ל- @noam שהפנה את תשומת לבי ועכשיו נענש במינשון).

הסריקה של התמיכות בגדול עובדת אם כי היא די עדינה ולעתים נכשלת. בכל מקרה, היא רצה מדי יום כך שבסה״כ המידע אמור להיות יחסי עדכני.
מה שאני לא יודע להתייחס אליו הוא תדירות העדכון של המידע במקור - באתר הקודם של התמיכות הם עדכנו את המידע אחת לחודש, אבל באתר הנוכחי אין אינדיקציה למועד נכונות המידע.

אם יש לך דוגמאות של מידע שמופיע באתר התמיכו אבל לא מופיע אצלנו אשמח לקבל, אולי בכל זאת יש שם באג שלא איתרתי.

לייק 1