המלצות של הסדנא לסטנדרטים למידע פתוח לרשויות ציבוריות

בעקבות החלטת הממשלה 1933 מאוגוסט 2016, שקובעת כי מידע ציבורי שברשות גופי ממשל יהיה פתוח כברירת מחדל, התקשוב הממשלתי מכין הנחיות לממונים על פתיחת המאגרים במשרדי הממשלה איך צריך לפתוח את המידע. הסדנא הוזמנה לכתוב הצעה מה ההנחיות צריכות לכלול.
עשיתי מחקר על סטנדרטים של מידע פתוח, מסמכי מדיניות שקיימים בעולם וגם אספתי את מה שלמדנו מהנסיון שלנו.
הינה הטיוטה שכתבתי. היא עדיין בעריכה, אך מכיוון שהדדליין קרוב מאוד (יום שני ה-16.1), אני כבר משתפת אותה.
אשמח להיערות, הרחבות, דוגמאות, ביעורים וכו’.

  • הטיוטה עם ההמלצות של הסדנא.

  • החלטת ממשלה על שיפור העברת המידע הממשלתי והנגשת מאגרי מידע ממשלתיים לציבור

  • דו"ח מסכם - הצוות הבין משרדי להנגשת מאגרי מידע לציבור

מגניב מרי, התחלה טובה. האם אפשרי לאפשר תגובות במסמך, כרגע הוא לקריאה
בלבד,וזה יהיה יותר אפקטיבי לתיקונים קלים.

אני רוצה להתייחס ספציפית למושג קריא מכונה. אדם, פול ואני דנו לא אחת בזה
בOpen Knowledge, ואני חייבת להגיד שבמסמך הקיים עדיין יש בלבול. למשל, לשחרר
מידע בצורה טקסטואלית זה אכן קריא מכונה, אבל בשבילנו לעבד משהו כזה זה סיפור
מאוד מורכב שכולל המון סקרייפרים.
לכתוב הנחייה בה מידע טקסטואלי צריך להיות. בHTML, במיוחד שהם לא מובנים כל כך
טוב, זו נראית לי טעות גדולה מאוד. קובץ טקסט כבר נראה לי אפשרות טובה יותר,
או אפילו xml…

באינדקס המידע הפתוח למשל, מידע טקסטואלי בHTML אינו נחשב קריא מכונה…

נקודה שניה - אולי שווה להתייחס גם לסטנדרטים בינלאומיים כמו שיש ברכש, כדי
שהמדינה לא תמציא את הגלגל כל הזמן?

אשמח לשמוע עוד תגובות על זה כאן.

מור

היערות מצויינות. תודה!
המסמך אמור להיות פתוח

@aaa @mushon @yotammanor @uda @Alon_Nisser @alon_antin @saaralonbarkat @idoivri @OriHoch @Nir_Galon @Ronit_Fuchs @Ofer_Bartal @daphshez

המסמך כבר הגיע לרשות התקשוב ונדרשנו להבהרה בנושא metadata. מי יודע?


אהלן, יואב כספין מישראל דיגיטלית, אני מסייע לתקשוב בגיבוש ההנחיות.

בקצרה

  1. מבחינת descriptive metadata - מהו הסטנדרט הכי מקובל להשתמש בו כיום? מתוך הסטנדרט, מהם השדות שהם חובה לאקט הראשון?
  2. כיצד מנגישים structural metadata בצורה טובה?

בהרחבה
חשוב שמחד המשרדים יעלו מאגרים ומטה-דאטה על פי סטנדרטים מוגדרים מראש (כך שלא תהיה עבודה כפולה בעתיד). מאידך: אם נשפוך עליהם בוכטה של הגדרות, יהיה לאנשים במשרדים המון עבודה על כל מאגר, ומה שלא פשוט - פשוט לא יהיה. לכן אני מנסה להבין אילו שדות מהסטנדרטים הם קריטים כהתחלה.

קראתי את ההנחיות של ה-W3, ואת הסכמות המומלצות של האמריקאים והבריטים. אני מזהה שיש מספר רמות של metadata:

  1. descriptive metadata
  2. structural metadata

לגבי descriptive - בעצם יש גם שתי רמות בתוכו:

  1. מידע גנרי על הקובץ שצריך להיות מפורמל לפי סטנדרט (לדוגמה, DCAT)
  2. מטה-דאטה על הקובץ עצמו, כמו בדוגמה על הטקסט של פרוטוקול הכנסת (לדוגמה: רשימת הלוביסטים)

לגבי structural - כשאני מסתכל על מאגרים שמונגשים בארה"ב ובבריטניה, אני רואה הרבה descriptive, אבל למעט קבצי JSON קשה נורא למצוא מידע אודות השדות בקובץ. ניסיתי לחשוב למה זה ולא הצלחתי. תוכלו להסביר לי?

תודה רבה!
יואב

https://docs.google.com/document/d/1bQF_8emR4E6mFX7E-hLz6cfm1DYT08cS1-stvNnh7QY/edit

אחד התקנים הפשוטים והמוצלחים (שאני גם קשור אליו במידת מה) הוא ה-data
package שמקודם על ידי open knowledge:
http://specs.frictionlessdata.io/data-package/

אדם

התקן של datapackage הוא מעולה כי הוא פשוט וקל לביצוע אבל הבעיה זה לא הפורמט - הבעיה היא פשוט שזה קשה לקחת אחריות על structural metadata - זה דורש עבודה גם להגדרה הראשונית וגם לאחר מכן צריך כל הזמן לעדכן את זה

אז מצד אחד זה דורש עבודה ואחריות שוטפת ומצד שני - קשה להבין למה צריך את זה בכלל…

אני עם אורי. דיברתי גם עם יואב, ולא הייתה לי דוגמא אחת מעולם שבה אפשר להראות structural metadata בפורטלי המידע הפתוח. זה מפתיע כי זה נושא חשוב שחשבתי שמישהו יתעסק בו, ולא מפתיע כי נראה לי שהוא קשה מדי ליישום שוטף.
מצאתי את זה, אבל זה נראה לי יותר לספריות - http://digitizationguidelines.gov/guidelines/

זה נושא מאוד חשוב - אפילו אם הוא לא מטופל במדינות אחרות בצורה מסודרת.
זה בדיוק הדבר שמאפשר לקחת קובץ נתונים מהפורטל ולטעון אותו לעיבוד בלי לחשוש
מכך שאנחנו טועים באופן בו התאריך מופיע (dd/mm/yy או mm/dd/yy?), הנקודה
העשרונית היא נקודה או פסיק, השפה של הטקסט היא עברית או אנגלית וכו׳.
מעבר לכך, זה גם מה שמאפשר לעשות ולידציה אוטומטית לנתונים. האם כל העמודות
מופיעות? האם בכל שדה יש נתון? האם הנתון שאמור להיות מספר או אכן מספר? וכו׳.
אפילו במקרה הסופר פשוט שהוא דוחות הרכש של משרדי הממשלה השונים: יש שליפה
במרכב״ה שאמורה לייצר את הקובץ. לכאורה כל הקבצים אמורים להיות באותו פורמט
בדיוק. ועדיין - כל משרד מפרסם קובץ עם פורמט אחר ושדות שונים.
אם היתה סכמה מסודרת לקבצים האלה כל הבעיות האלו לא היו קיימות.

אדם

wrote:‬

זה אמנם לקח קצת זמן, אבל רשות התקשוב פרסמה טיוטת הנחיות לביצוע הנגשת מאגרי מידע לציבור. זה המסמך שאמור להנחות את הגורמים שמונו במשרדי הממשלה להנגשת מאגרי מידע.

אני מצטטת כאן את מה שאילנה פינשו כתבה במייל:

" תודה מיוחדת לשבי ומרי וניר וכל חברי הסדנא לידע ציבורי שכתבו את המסמך שעליו התבססה ההנחיה. אני מתנצלת שלקח כל כך הרבה זמן להביא את זה לידי ביטוי, אבל הדחייה גם אפשרה תהליך למידה מיישום שהשפיעה לטובה על ההנחיות."

רשות התקשוב מעונינת לפרסם את ההנחיות ממש בימים הקרובים, ויש לנו עוד הזדמנות להעיר על הטיוטא.
אלה ההנחיות שילוו את משרדי הממשלה בתהליך פתיחת המאגרים - אז כל שיפור/תיקון שיש לכם הוא משמעותי.

@niryariv @idoivri @daonb @OriHoch @yair morchickit @ @pwalsh