איך אפשר לעשות scraping לרשימות מוזמנים לועדות הכנסת?

50stuck · 4 בנובמבר,‏ 2015,‏ 7:28pm

הי,
לטובת ניתוח נתונים אני רוצה ליצור רשימה של כל המוזמנים לועדות הכנסת.

תמיד יש חלק “מוזמנים” בפרוטוקות, אבל לא נראה שיש אטריביוט שמייחד את זה.

ניסיתי להוריד את התמלילים עצמם ולחפש לפי REGEX שורות שמכילות את המחרוזת “מוזמנים” בעברית, אבל לא הצלחתי לגרום לקידוד לעבוד (גם הגיגולים בנושא העלו חרס).

אחר כך ניסיתי להתבסס על committeemeeting ב-API, אבל לא נראה מהסכמה שיש חלק רלוונטי (לא לרשימת המוזמני עצמה, אבל גם לא לתמליל המלא של כל ועדה).

מישהו יכול לתת לי כיוון איך לעשות משהו כזה (אני רק מתחיל את צעדיי הראשונים בפייתון, אז מצטער אם זו שאלה מפגרת).

sbox · 4 בנובמבר,‏ 2015,‏ 10:16pm

dont use regex to scrape stuff off the web parsing html with regex is like trying to get a nail into a wall with your forehead
if you program in python use beautiful soup
if you are using ruby try nokogiri
and if you are using c, stop , just stop , c is not for webdev.

50stuck · 5 בנובמבר,‏ 2015,‏ 9:10am

תודה רבה על המענה!
אני אכן משתמש בפייתון, ובאמת ניסיתי לעשות את זה בהתחלה עם Beautiful Soup 4, אבל גם שם נתקלתי בכמה בעיות (“not well formed” ובעיות קידוד).
מכל מקום, הנחתי שבגלל שאין אטריביוט או class ספציפי למה שאני מחפש אני ממילא אצטרך להשתמש ב-regex (כי בעצם אני יכול לבודד את זה רק על פי הטקסט עצמו), לא?

OriHoch · 5 בנובמבר,‏ 2015,‏ 9:55am

אתה יכול להשתמש בAPI של כנסת פתוחה בשביל לקבל בצורה נוחה ומקודדת את החלקים של הפרוטוקול

פה יש את הרשימה של כל ישיבות הועדות (זה מחולק לדפים, כאשר בכל דף יש קישור לדף הבא בmeta.next):
https://oknesset.org/api/v2/committeemeeting/?format=json

בכל אובייקט של ישיבת ועדה אתה צריך ללכת לפרוטוקול עצמו (נמצא בresource_uri) לדוגמה -
https://oknesset.org/api/v2/committeemeeting/10468/?format=json

שם אתה יכול לעבור על כל הערכים של protocol ולחפש את האובייקט שמכיל header: “מוזמנים”, לקחת את הטקסט שלו ואז באמת עם regexp (או סתם עם פיצול לשורות) אתה יכול להוציא רשימה של המוזמנים

OriHoch · 5 בנובמבר,‏ 2015,‏ 10:01am

אם אתה עושה את זה בpython אז אלה הספריות שאתה צריך:
http://requests.readthedocs.org/en/latest/
https://docs.python.org/2/library/json.html

50stuck · 7 בנובמבר,‏ 2015,‏ 7:56am

מהמם!
תודה רבה!!!

50stuck · 9 בנובמבר,‏ 2015,‏ 3:43pm

אגב, אם מעניין מישהו, אז זה מה שעשיתי עם זה בסוף:

OriHoch · 9 בנובמבר,‏ 2015,‏ 4:00pm

מגניב!

50stuck · 10 בנובמבר,‏ 2015,‏ 10:38am

אגב, יש משהו לא אינטואיטיבי בעיצוב מבחינת איך שרשימת המוזמנים לדיונים נראית (כי בעצם יש הצמדה בין הטייטל של מוזמן א’ עם השם של מוזמן ב’, ומקפים שמפרידים ביניהם).

לצורך העניין, כדי לאחד בן-אדם עם הטייטל שלו כרגע מרשימת המוזמנים זה ה-REGEX הרלוונטי:
’.+[\r\n]+–[\r\n]+.+’

אולי שווה לשנות את זה ולהצמיד בין השם של הבן-אדם לטייטל שלו?
מבחינת הקריאות של הפרוטוקול נראה לי שזה יעזור.

OriHoch · 28 בדצמבר,‏ 2015,‏ 9:14am

סליחה על התגובה המאוחרת… אנחנו עובדים על זה

github.com/hasadna/Open-Knesset

committee protocol invited section is confusing

opened 07:18PM - 30 Nov 15 UTC

closed 09:14AM - 17 Jan 16 UTC

OriHoch

Starter Scraping

- goto: https://oknesset.org/committee/meeting/10034/ - look at the "מוזמנים" se…ction ### expected - person name and title should be on same line ### actual - person name is separated by line breaks and dash - it is not clear which title belongs to which person ## notes - I think it should be fixed when scraping the data, but it might be possible to fix on display as well.. whatever is easier