חומת-אש של reblaze באתר הכנסת

פרויקט ספר החוקים הפתוח מריץ באופן קבוע בוט, שבודק את אתר הכנסת אם יש עדכונים לחוקים, וכך מעדכן את רשימת המשימות ואת הקישורים לרשומות. ביום חמישי האחרון, אנשי ה-IT של הכנסת (של חברת MalamTeam) הכניסו לשימוש firewall של חברת Reblaze, בשם Reblaze Secure Web Gateway. הסיבה לכך היא שעד לאחרונה, אנשי ה-IT של בית המחוקקים של ”מדינת הסייבר“ בחרו בפתרון הרבה יותר פשוט למניעת התקפות DDOS: הם פשוט חסמו את כל כתובות ה-IP מחו״ל. ממש אור לגויים.

אבל נחזור לאתר הכנסת. ה-firewall החדש מסתמך על שימוש כבד ב-JS וטכניקות מתקדמות נוספות לזיהוי הקליינט לפני שהדפדפן מופנה לאתר עצמו. אם הדפדפן מתנהג יפה, הוא יקבל עוגייה, ואז יופנה לאתר האמתי השוכן באותה הכתובת. הכל טוב ויפה, למעט זה שעכשיו ה-scrapper לא עובד. השאלה היא כזאת: האם מישהו מהקהל יודע איך לעבוד עם דפדפן כהליך רקע, או מכיר את WWW::Selenium או WWW::Mechanize::Firefox, ויכול להמליץ על הדרך הפשוטה ביותר לעדכן את ה-scrapper. ה-scrapper כתוב ב-perl, והעברה לפלטפורמת תוכנה אחרת אינה אופציה.

זה כנראה באשמת צוות פתוחה שבסך הכל רצה לפתוח את ה- API ל- IP זרים…

@Alon_Nisser מה זה אומר אצלנו? והאם אפשר לעזור לצבי?

נתקלנו בזה בתב"ע פתוחה לא מזמן (מדובר לא רק באתר הכנסת אלא כנראה כל אתרי הממשל, כולל מבא"ת ורמ"י). מור פתר את זה באופן אלגנטי שאני לא בדיוק מבין (אלון בטח יבין טוב יותר ממני) אבל לא הצריך שינויים גדולים מדי בקוד: https://github.com/niryariv/opentaba-server/commits/master

מהקוד של מור נראה שעושים scraping לתגובה שכוללת סקריפט
מוציאים מידע מהסקריפט
מריצים עליו חישוב
ומחזירים בheader

וזה מצחיק כי הקטע של הchallenge הוא למנוע גישה של בוטים וסקרייפרים כמו שלנו…

מעניין למה נראה שכנסת פתוחה לא מקבלת את זה… אבל יש מצב שמרוב שהם פוחדים מהבלגן של @morchickit קיבלנו קארד בלאנש לכנסת פתוחה

לגבי פתרון:

  1. הייתי משתמש בדפדפן ממוכן כאופציה אחרונה (סלניום לסוגיו) פריך, איטי, קשה לדבג
  2. עדיף שמור/שבי יפנו לכנסת ושיעשו whitelist לIP שלך
  3. אם לא אז הפתרון של מור בתבע פתוחה הוא פשוט למימוש מההתרשמות שלי

הענין הזה די מדאיג. כיוון שאתרי ממשל בישראל לא מספקים API תקין, כל מי שרוצה לעשות דברים כמו שהסדנא עושה נאלץ להשתמש בסקרייפינג, והמנגנון החדש מקשה מאד על מפתחים.

נראה לי שזה דגל שהסדנא צריכה להרים, בוודאי לא להסתפק ב whitelist בשבילנו. זה לא מצב סביר.

לייק 1

אני רוצה לעשות פנייה מסודרת בנושא הזה. העובדה שאנחנו נתקלים בזה גם באתר הכנסת וגם באתרים ממשלתיים מחשידה שזה מגיעה ממקום מרכזי. ממשל זמין ? מישהו יודע?

@aaa האם גם במפתח התקציב נתקלתם בבעיה דומה ? נניח, מול אתר מנו"ף, או התמיכות?
איזה פתרון לדעתכם צריך להציע ?

אעדכן שהבעיה נפתרה באופן נקודתי – הם הוסיפו את הסרבר ל-white list שלהם.

2016-10-06 12:33 GMT+03:00 shevy info@hasadna.org.il:

כן, גם במפתח התקציב נתקלנו בבעיות כאלו - אנחנו עברנו לסקרייפינג ישירות
מישראל וזה פתר את הבעיה.

אדם

בעקבות בקשה, אני מעלה כאן שוב את הפתרון שהעליתי בסלאק:
https://hasadna.slack.com/files/U070VUT35/F5TBJEE4E/rereblaze.js
(עריכה: צריך להתחבר לסלאק כדי לצפות בקובץ)

לא יודע כרגע אם זה עדיין עובד ללא שינוי, מחכה לעדכון ממי שביקש…

בנוסף לכך, יש כאן הסבר קליל איך להשתמש ב-headless-chrome כפרוקסי לצורך מיסוך השימוש כבוט, מוצג כפתרון למעקף של מוצרי אינקפסולה, אבל זה רלוונטי באותה מידה ל-reblaze ואחרים שמבוססים על cookie:
https://tech.b48.club/2018/10/14/how-to-bypass-incapsula.html