נקודות מתוך השיחה עם רשות התקשוב

להלן נקודות עיקריות מתוך השיחה שנערכה בסדנא ב-30.7:

  • נעשה תהליך Review על הנגשת מאגרים - לפרסם את ה-Review עצמו

  • מתחילים שכתוב Data.gov.il - נשמח להיות מעורבים כמה שיותר מוקדם

  • הרחבת החלטה 1933 (פתוח כברירת מחדל) לרשויות וגופים ציבוריים נוספים - האם יש דרך לסייע מצידינו בקידום החקיקה?

  • מיפוי והנגשת מאגרים קיימים זה לא מספיק: המאגרים כפי שהם קיימים ברשויות השונות נבנו כפי שנבנו כדי לשרת את הצורך הפנימי של הרשות. לפרסם אותם כפי שהם לא בהכרח משרת את הצורך של הציבור, לכן צריך להתאים מאגרים קיימים לצורך של הציבור. למשל, לאחד מאגרים מפוצלים למאגרים מאוחדים. או לייצר מאגרים חדשים לגמרי שהציבור צריך (והממשלה לא צריכה, אז לא הוקמו). למשל: להקים מאגר קולות קוראים

  • צפוי להתפרסם מכרז ל-Chief Data Officer (ארכיטקט מידע ממשלתי) - נשמח לייעץ על הדרישות למכרז, וכמובן לסייע להפיץ

  • Ask Once (איסוף מידע מאזרחים שרשויות שונות צריכות, פעם אחת בלבד, בהתאם לאותה החלטת הממשלה 1933) ו-API Services בין משרדיים - נשמח להיות מעורבים בתהליך כדי מראש לוודא שדברים נבנים באופן שמותאם לשיתוף הציבור

  • ביקשנו פתרון להגנות סייבר שמונעות הורדת נתונים ע"י בוטים שרצים משרתים בחו"ל.

  • נשאלנו על סיוע בתעדוף מאגרים ממשלתיים לפתיחה והנגשה. הצענו להיעזר ברשימת המאגרים שנסקרים על ידי מדדים בינלאומיים כגון Open Data Index או Open Data Barometer

  • נדרשים כלים לניטור איכות הנתונים המפורסמים. נשמח לסייע בכך.

  • צריך להגדיל את כמות המאגרים של רשויות מקומיות

הערות כלליות

  • במאגרים מסויימים יש בעיה של תיעוד וקשה להשתמש בהם. דוגמה: מאגרים שהוצעו בהאקתון תיירות

  • יש משרדים עתירי מאגרים, כגון הגנת הסביבה, חינוך, בריאות, וגם הלמ"ס, שהמאגרים שלהם עדין לא ב-data.gov.il. שמענו שיש שאיפה לעבור לענן, מה שידרבן את המשרדים להעלות קבצים לפורטל במקום לאתר המשרדי.

  • המדד של מספר הורדות מ-data.gov.il לא רלוונטי וגורם להטיה. בפועל משתמשים במאגרים בתיווך של אפליקציה.

  • מתוכנן קטלוג מידע ממשלתי

  • קפצ’ה - עקרונית בא להגן על פרטיות. למשל ברישום טאבו חיפוש הפוך שיציג שם הבעלים על פי נכס, הוא בעייתי ולכן מגבילים אותו בקפצ’ה. במקרה של פרטי חברות מרשם החברות - נכון להיום מוגן בקפצ’ה כדי למנוע חיפוש הפוך ולגלות חברות מרובות הרשומות על אותו אדם. יחד עם זאת מתוכנן לפרסם מאגר דירקטורים ועוד פרטים על חברות.

  • במקביל עובדים על פתרונות התממה (אנונימיזציה)

  • הנגשת מידע של מפעילות תחבורה ציבורית - עלולה להיות בעיה של קניין רוחני כי המידע שייך לחברות מבחינה חוזית. היינו רוצים להשפיע על המכרז החדש לחברת מידע שאומנם זה עתה הסתיים, אך אולי יש פתח לעדכון תנאי הבעלות על המידע הנאסף.

  • נתוני שוק ההון מצומצמים

  • שאלה פתוחה - מהי האסטרטגיה היעילה לשחרור מאגרים - האם לשחרר במסה או לסמן מאגרים הכי חשובים?

יש למשרד המשפטים מאגרים שמתעדכנים באופן שוטף (למשל, מאגר החלטות השמאי המכריע) שמכילים מידע טבלאי וכן מידע בקבצי PDF. אם אפשר שהמידע הטבלאי יעלה באופן שוטף ל-Dava.gov.il זה יהיה מצוין.

באותו עניין של נתוני שמאות, יש צורך לפרסם נתונים אלה בפורמט שהוא לא פידיאף. הפורמט הנכון ביותר לפרסום נתוני טקסט הוא הטמל, היוצר מבנה ברור וקריא מכונה למסמך.

בעניין המכרזים ומידע שנאסף במסגרתם, כדוגמת הסכמים עם מפעילות תח"צ וכו’. צריך להסדיר את נושא המידע הנחשף לציבור, הדרך בה הוא נחשף, כבר בשלב המכרז. כמה הצעות, כנראה צריך לנקוט ביותר מאחת או בכולן בהתאם למכרז - סעיף “חופש מידע” חובה בכל מכרז, וידוא עמידה בסטנדרטים ופורמטים פתוחים, התערבות פרו-אקטיבית של היחידה בתהליך המכרזי, הליך שיתוף ציבור מסודר.

נמסר מצוות “פנסיה פתוחה”, המבצע ניתוח נתוני שוק ההון כדי לבחון את מדיניות ההשקעות של הגופים המוסדיים.

המפקח על הביטוח

  • דוח נכס בודד של כל הקרנות פנסיה וגמל רבעוני
  • פרטי כל הגופים המוסדיים.
  • דוח הרכב נכסים מרוכז – חודשי.
  • דוחות פירוט מרכיבי תשואה – חודשי.

הרשות לניירות ערך

  • בעלי עניין בחברות ציבוריות – חודשי
  • דוחות כספיים של חברות ציבוריות – רבעוני (מגנא)

שמחתי להפגש עם הצוות המדהים ולשמוע על הפעילות שהם עושים ויעשו.
למדתי הרבה ואשמח לקרוא לקחת חלק בפעילויות משותפות.

רציתי להעיר שדובר על כך שהכוונה היא לעלות כמה שיותר מאגרים וצריך לבדוק את כל הנתונים של המאגרים
מספר רב זה לא מראה על איכות המאגר.

וגם העלו את הנושא של באיזה מאגר לחפש את הנתונים בעיה של הציבור. זה שהנתונים פתוחים ויש מאגרים זה עדין לא אומר שנוכל למצוא אותם.

תודה רבה לכולם!

שלום לכולם,

אני רחל, ולמי שלא נכח במפגש, אני מובילה את פרויקט הנגשת מאגרי המידע ברשות התקשוב, נעים להכיר. בהמשך לסיכום של מרי, חשוב לנו קודם כל להגיד תודה על המפגש הפתוח והכן ועל הפידבק המועיל באמת שקיבלנו. היה לנו משמעותי לשמוע אתכם באופן אישי ובלי אמצעי, כמשתמשים מובילים של מידע ממשלתי פתוח.

להמשך הדרך, יש כמה נושאים שבהם נשמח לשתף פעולה:

  1. שיפור והטמעת סטנדרטים להנגשת מידע: לאחר שהוצאנו את ההנחיה שנכתבה בסיוע הסדנא, ב-2019 אנחנו רוצים להתמקד בבקרה והטמעה שלהסטנדרטים בדאטה גוב. אם יש לכם כלים רלוונטיים שפיתחתם, או דגשים לשיפור המשוב על מאגרים, כפי שאמרנו, זה הזמן והמקום להציף אותם, אפשר דרך מרי ואנחנו נקדם את הנושא.

  2. אלו הנושאים שבהם אנחנו מתכננים לעסוק השנה, ונשמח להעביר אותם למשוב שלכם:

  • הרחבת מדיניות מידע פתוח לגופים ציבוריים ורשויות מקומיות – כידוע לכם, החלטת הממשלה אינה חלה על גופים אלו ולכן נדרש לגבש המלצות מדיניות נפרדות לנושא. זו משימה שעומדת על הפרק לתחילת 2019, בהמשך לתכניות העבודה של השנה.
  • מדיניות פרטיות בהנגשת מאגרי מידע: כפי שסיפרנו במפגש, אנחנו מרכזים כרגע צוות שמטרתו להתוות מדיניות להנגשה או התממה של מאגרי מידע המכילים כיום מידע מזוהה או ניתן לזיהוי. במהלך החודשים הקרובים, לפני שנסכם את מסקנות הצוות, נפרסם טיוטה להתייחסות.
  • Transparency by Design - עיצוב מערכות מכוונות שקיפות: במהלך המפגש וגם אחר כך פה בפורום, עלתה שאלה של התייחסות להיבטי שקיפות כבר בשלב תכנון מערכות מידע ממשלתיות. בעקבות הפידבק הזה, אנחנו בודקים אפשרות לפרסם הנחיית רשות התקשוב למשרדי הממשלה בנושא במסגרת תכנון מערכות עתידיות. כאשר תהיה התקדמות, נשמח לקיים מפגש ולדייק את תוכן ההנחיה.
  • תהליך מסע לקוח לדאטה גוב המחודש
  1. ראיתי שעלו מאגרים ספציפיים שיש בהם עניין – תודה על זה! העברתי אותם לממוני הנגשת מידע ביחידות הרלוונטיות (רשות שוק ההון ומשרד המשפטים) ואעדכן בתשובתם כשתהיה. חשוב לי להבהיר שהרשות לניירות ערך אינה כפופה להחלטת הממשלה ובהתאמה אנחנו יכולים לפעול מולם רק באופן וולונטרי, אבל אעשה מאמץ לקדם את זה.

  2. כחלק מפעילות “ממשל פתוח” של הרשות, יצאנו במיזם חדש של דאטה ואמנות – “Artech”. מדובר בתחרות יצירות אמנות מבוססות מידע הכוללת האקתון יצירה, ובסופה תערוכה וחלוקת פרסים לזוכים. את כל הפרטים תוכלו למצוא באתר התחרות. חשוב להדגיש שהרעיון מאחורי התחרות, להבדיל מהאקתונים מבוססי יישומים או מכוונים לקבלת החלטות, הוא מתן פלטפורמה חדשה לשיתוף וביטוי מצד הציבור וחשיפה של המידע לקהלים חדשים. מוזמנים להשתתף ולהפיץ לכל מי שרלוונטי, נשמח לראות אתכם באירוע החשיפה באוקטובר.

מלבד כל אלה, אפשר לתייג אותי בפוסטים ולהציע רעיונות ויוזמות (במיוחד עכשיו לקראת תכניות העבודה ל-2019). מבחינתנו זו יריית הפתיחה בחיזוק הקשר עם המשתמשים שלנו, וכפי שאמרנו, אנחנו מתכננים להרחיב ולהעמיק את הפעילות הזו במהלך השנה הקרובה. מזמינה אתכם לפנות אלינו ישירות בכל שאלה או הצעה:

שחר ברכה, מנהל חטיבת תכנון ואסטרטגיה: shaharb@cio.gov.il
רחל רן, מנהלת תחום בכיר פרויקטים מיוחדים: rachelra@cio.gov.il
מאיה קדוש אילון, מנהלת פרויקט דאטה גוב: mayak@cio.gov.il

תודה ולהתראות,

רחל

לא הבנתי למה צריך לחסום בוטים שמורידים מידע, מחו"ל או מהארץ. זה חלק מהותי מהפעילות של DATAGOV, וצריך לוודא שלא חוסמים אותו. בסך הכל צריך להתגונן מתרחישים של DDOS, אבל בשום אופן לא למנוע מבוטים לגרד את האתר הזה וזה בכלל לא משנה מאיפה הם באים. אין מקום והצדקה לקפאצ’ה, ספק אם זה עומד בתקנות הנגישות (אני מחכה לקבל את עמדת נציבות אנשים עם מוגבלות לגבי השימוש בקאפצ’ה) ויש מעט מאד מאגרים ממשלתיים שיש הצדקה משפטית לשים את זה. מאגר עסקאות הנדל"ן הוא אחד הבודדים שיש בו מכשול משפטי שיכול להצדיק את זה, וממילא, להערכתי, דווקא אותו רשות התקשוב חשפה בניגוד לחוק.

לגבי מאגרים של חברות תחב"צ, אם המידע מצוי ברשות, וודאי כאשר הוא של תאגידים ולא אנשים פרטיים, יש ציפיה סבירה שיהיה גלוי ונגיש לציבור ולא עד הסוף ברור לי החסם המשפטי. אין פה בעלות של המידע בחברות התחב"צ, ואם אין סעיף מפורש בחוזה שאוסר על המשרד למסור את המידע, חזקה שניתן למסור ואפילו לפרסם באופן יזום (זה הבסיס של נוהל פרסום דוחות התקשרות). דיווח של חברה לגוף ציבורי מתוקף רגולציה, הוא מידע ציבורי, ועל פני הדברים אין שום מניעה מלפרסם אותו (גם אם החברות חשות לא בנוח מאפשרות השימוש במידע, לצורך העניין, סוד מסחרי אין פה כי זה ממילא מידע פומבי וגלוי, גם פרטיות אין פה כי אלה תאגידים).

לגבי דוחות ההתקשרות על פי נוהל חשכ"ל והיחידה לחופש המידע, זה מידע טבלאי מעולה, שמיוצא ממערכת אחידה ועדיף שירוכז בDATAGOV ולא בFOI. כיום המצב הוא שאין שום דרך, אבל ממש שום דרך לקבל תמונת מצב רוחבית של המידע הזה. אם במקום לייצא לקבצי אקסל, כל הדאטה הזה יכנס ישר למאגר אחד אחיד ומרוכז, עליו אפשר לבנות UI אלמנטרי להנגשה של חתכים מתוך המידע ולפתור את הבעיה. כרגע השיטה של מאות אקסלים חלקיים, עם חפיפות לא ברורות וחוסר אחידות פשוט הפך את זה לאוסף של פיצוחים בלי שום יכולת להביא לידי ביטוי את העושר וחשיבות המידע שמצוי שם.

אגב FOI וDATAGOV, אז כמובן שאין סיבה לתחזק שני אתרים מקבילים כשממילא כל הפונקציונליות של FOI אפשר לעשות בDATAGOV ואז לחסוך תחזוקה של שני אתרים נפרדים ולתחזק ולפתח אתר אחד. בנוסף בFOI יש רשימת רשויות בקובץ XML, יש גם ג’ייסון יותר מוצלח (בדגש על ממשק לשרת הטפסים) ופחות פומבי של רשימת הרשויות וזה מידע שמתבקש לשים בDATAGOV.

גוגל פרסמה לאחרונה מערך סטנרדטיזציה של מאגרי מידע שיכול להיות סטנדרט מתאים לנושא הזה, גם פנימה כפרויקט לאומי וגם החוצה כממשק עם מערכת החיפוש של גוגל

יש אפילו הרחבה רלוונטית לCKAN שאורי הוך מצא ברשת

אנחנו כרגע רצים עם פיתוח עצמאי למידע לעם לפי הדרישות שלנו, אבל אם רשות התקשוב תגדיר בצורה מסודרת דרישות ותקציב שהיא מייעדת לפיתוח CKAN, אז יהיה אפשר למנף את הקוד הפתוח כדי לייצר פיתוחים משותפים ולחסוך עלויות (כולל ב"ש שהאתר שלה כבר באוויר).

לגבי מאגרים, אז הרבה לפני העבודה הטכנית, יש עבודה משפטית שאף אחד לא מרים את הכפפה והתוצאה היא שיש אוסף של מאגרים שסתם בגלל הזיה נקודתית של כמה עובדים על זכויות יוצרים- סגורים. הדבר הזה רווח מאד בתחום המיפוי והוא נחלתם של אנשי מפ"י, למ"ס, רט"ג ועוד. אלה מאגרים מעולים, עם ערך ציבורי גבוה, יכולת לבנות אפליקציות ניווט עשירות במידע, ובפועל כל התחום הזה תקוע בגלל חבורה קטנה של פקידים ואיזו תפיסה משפטית קלוקלת. אפשר בחו"ד אחת פשוטה לשחרר כמות גדולה של מאגרים איכותיים שמונחים על המדף ומחכים שמישהו יקטוף אותם אם רק יינתן מענה מסודר לנושא זכויות היוצרים או אפילו לדלג על ההכרעה הזאת ולקפוץ ישר לתנאי השימוש הלא מוגבלים (אני חושב שרשות התקשוב מטעה את הציבור ומייחסת בDATAGOV זכויות יוצרים על מה שאין בו בכלל זכויות יוצרים, אבל בכל מקרה, בהיבט הפרקטי של מגבלות על השימוש, אפשר לבלוע את הצפרדע הזאת אם היא תחול גם על תחום המיפוי, כלומר שמי שרוצה להמציא זכויות יוצרים ימציא גם כשהוא טועה ובלבד שלא יגביל את השימוש בצורה לא סבירה).

עוד מכלול מאגרים משמעותי הוא תחום הפשיעה, האכיפה והמשפט. משטרת ישראל מוצפת בבקשות לקבל מידע על פעילות האכיפה והמעצרים שלהם ובמקום לשחרר מאגרים גולמיים לציבור, במהלך שנועד לשרוף שעות עבודה על כלום, הם כל פעם נותנים חתך ספציפי. גם משרד המשפטים עם מערכת תנופ"ה וגם הנהלת בתי המשפט עם נט המשפט, מחזיקים מאגרים ששוים זהב, טבלאות ענק של נתונים שיכולים להאיץ את המחקר וההבנה הציבורית של סוגיות רבות בעלות השלכה ממשית על חיינו, תקועים סתם כי אנשים לא רוצים להנגיש מידע. אלה מאגרי מדף שאפשר להנגיש במאמצים מינמלים ויש להם ערך גבוה.

היי חברים,
שמי רועי יצקן.
הצטרפתי לצוות של רחל רן מרשות התקשוב.
תודה שאתם מעלים סוגיות וביקוש למאגרים.

אתם מוזמנים ליצור איתי קשר ב:
roie@cio.gov.il

נהיה בקשר!

לקראת הביקור של רשות התקשוב בסדנא ביום שני הקרוב ה-24.12 , אני מוסיפה לרשימה עוד כמה דרישות שעלו:

פרסומים של מבקר המדינה

דו"ח המבקר כמו גם פרסומים נוספים של מבקר המדינה משוחררים היום ב-PDF ו-DOCX. בנוסף באתר מבקר המדינה יש תקציר לכל פרסום המכיל את הפסקאות החשובות מכל פרק במסמך.

ההסבר רלוונטי לכל מסמך טקסטואלי.

הבעיות הן:

  1. המסמך אינו מכיל עיצוב סמנטי. לדוגמא לא משתמשים ב-Headers אלא פשוט בטקסט מוגדל עם Bold. זה מאוד מקשה על פרסור אוטומטי ומצריך שימוש ביוריסטיקות כדי לחלץ את הכותרת ולהבדיל אותה מסתם טקסט גדול ומודגש, לחלק את התוכן לנושאים וכו’.
  2. העיצוב משתנה בין המסמכים ואינו עקבי
  3. מדי פעם משייכים טבלה או גרף למסמך שהם לא בפורמט קריא, ולרוב פשוט תמונה מודבקת לתוך המסמך.

מומלץ לפרסם את התוכן ב-HTML. זה היה כופה מבנה וסמנטיקה על העורכים.

לדוגמה:
1. כותרת תהיה עטופה בתגית שאומרת שזה כותרת <h1>
2. פסקה שקשורה לכותרת תהיה תחת תגית הכותרת ועטופה בתגית פסקה: <h1><p>blabla</p</h1>

הכי טוב זה לעבור ל-Markdown בדומה לאיך שכותבים ב-Stackoverflow או ב-Github. זה פורמט טקסט פשוט ששקול ל-HTML. לדוגמא טקסט מודגש או מוטה או קו תחתי או “# כותרת”. זה גם מאוד קל לכתיבה וגם סמנטי.

אולי אפשר להציע שעדיין ישתמשו בוורד אבל לפחות שיגדירו Headers וכו’ כדי שיהיה סמנטיקה במסמכים. זה עדיין בעייתי אבל אפשר להגדיר את זה כיעד קרוב.