שלום לכל מתנדבי ופעילי הסדנא.
צוות “רכבת פתוחה” שמח להזמין לארוע הדאטה-תון, מרתון ניתוח נתוני רכבת ישראל לשנת 2013 (ורוב 2014). הארוע יתקיים ביום שלישי, ה-30.9 בין השעות 18:30-21:00 במשרדי הסדנא ברחוב קרליבך 7 (קומה ב’). רוצים לבוא? יאללה, תירשמו.
מי מוזמן?
בגדול, כולכם, אבל ההתמקדות שלנו באירוע תהיה בניתוח ועיבוד נתונים, ולכן אנחנו מחפשים בעיקר צוללני מידע, סטטיסטיקאים וכאלה שאוהבים לחלץ תשובות לשאלות מתוך נתונים.
אז מה נעשה שם?
קיבלנו וריכזנו את כל נתוני זמני הגעת הרכבות לתחנות בתקופה של 2013 ו- 2014 (עד אוגוסט). מדובר במעל 3 מיליון רשומות, כשכל אחת מהן מתארת עצירה של רכבת בתחנה מסוימת בישראל. הנתונים יוגשו לאורך הערב בפורמט csv, ואתם מוזמנים ללוש ולאפות אותם בעזרת הכלים החביבים עליכם.
למה בכלל אנחנו עושים את זה?
המטרה שלנו היא לנתח את הנתונים ולהוציא מהם תובנות מעניינות. המטרה שלנו כפולה:
-
להציג סיפורים שמתחבאים בתוך אוסף הנתונים הזה כדי לעודד אותו להמשיך ולשאול שאלות.
-
לעזור לנו להגדיר טוב יותר מדדים ושאילתות למערכת “רכבת פתוחה” המתקרבת לרגע ההשקה הציבורית שלה. בתחילת הערב נציג בקצרה את המערכת ונדגים כמה חשובה יכולה להיות התרומה של ניתוח הנתונים הקיימים.
רוצים להתאמן בבית?
הנה מחסן הנתונים שלנו בפורמט CSV פשוט:
https://github.com/hasadna/OpenTrainCommunity/blob/master/results/train_data.csv.gz?raw=true
והנה כמה שאלות מעניינות לדוגמא:
- האם יש הבדל בשיעורי האיחורים בין תחנות הפריפריה ומרכז הארץ?
- מהי תדירות ואורך האיחורים בימי ראשון וחמישי?
- מהי מידת האיחורים בשעות עומס ובכיווני צפיפות (לתוך ת"א בבוקר, מחוץ לת"א בערב)?
- עד כמה מייצג מדד הדיוק הרשמי של רכבת ישראל תחנות מסויימות (לוד, רמלה, בית שמש, ירושלים, נהריה ושדרות)?
- האם ישנם הבדלים בין עונות בעמידת הרכבת ביעדים?
- האם ניתן לאתר קווים בעייתיים יותר מבחינת איחורים?
*** עזרה בניתוח השאלות הנ"ל יכולה לעזור לנו בחשיפה תקשורתית לקראת הדאטה-תון. ***
להרשמה לארוע: http://bit.ly/opentrain-datathon
לפרטים ושאלות: hasadna.opentrain@gmail.com