פרויקט machine learning בשיתוף הסדנא

אהלן,
שמי נדב ואני סטודנט לתואר שני ב-machine learning בטכניון.
כחלק מהתואר הראשון בהנדסת חשמל, צריך לעשות פרויקט בהיקף משמעותי.
אני מעוניין להנחות פרויקט כזה בתחום של machine learning, ואני אשמח אם יהיה לזה גם ערך ותרומה לעבודה המדהימה שאתם עושים.

תוכלו להפנות אותי לדטה מעניין או רעיונות שקשורים בעבודה של הסדנא?
נתקלתי כבר בthread הזה, אבל נראה לי שהוא פחות רלוונטי כי רוב השאלות שם הן “שאלות יצירת היסטוגרמה”.

האם משהו בסגנון יצירת אלגוריתם שיחזה האם הצעת חוק תעבור או לא יכול להיות מעניין?

2 לייקים

הי נדב,

יש לנו דאטאסט עם כמעט חצי מיליון רשומות רכש (כלומר, קניות שהממשלה מבצעת
למוצרים ושירותים).
מה דעתך על נסיון לאתר מבניות כלשהי במידע הזה? לחלק אותו לקלאסטרים, לאתר בו
אנומליות וכו׳?

אדם

נשמע מעניין, איפה אני יכול למצוא את המאגר?
רואה שזה מופיע תחת “פרויקטים” אבל אין שם קישור.

הי,

הנה לינק לקובץ הנתונים המלא:
http://next.obudget.org/datapackages/procurement/spending/quarterly-contract-spending-reports/

אדם

הי נדב,
אפשרות נוספת היא תיוג החקיקה ודיוני הוועדות בכנסת פתוחה. זה פרוייקט מורכב כי הוא בעברית, אבל חשוב כי אחרי שנתייג תהיה אפשרות לבצע חיתוכים רבים על פעילות הכנסת, שלא ניתן לבצע כיום. זה עמוד התיוג הידני, ויש גם פרוייקט parsing לעברית שמתנדב אחר של הסדנא בשם אמיר מור השלים כחלק מהתזה שלו. גישה לנתונים אפשר למצוא כאן. אציין גם שבניגוד לפרוייקטי NLP מסחריים אנחנו מעדיפים להמנע במידת האפשר מ- False positive בגלל שהוא יוצר לנו בעיית אמינות. עכשיו יש לך עוד אפשרות, לבחירתך.
סימונה

שלום נדב, אני בעל הבית בתולעת המשפט, פרוייקט שעוסק בלגרד נתונים מבתי המשפט. רק אומר פה שיש לי הרבה נתונים מעניינים, חלקם פרסמתי, חלקם עוד לא פרסמתי.

כדאי לך לדבר איתי שאסביר לך מה יש לפני שתקבל החלטה.

(אני חיפאי, קפה ברח’ מסדה עלי).

שלח לי הודעה פרטים לדף הפייסבוק של הפרוייקט ואתן לך את פרטי הקשר שלי

נדב,
נראה שיש הרבה נושאים, אולי המנחה שלך ירצה להפנות עוד מסטרנטים.
סימונה

היי אדם, האם ניתן לשתף את הדאטא? (הוא ריק מהסתכלות שלי)

@akotek

הלינק העדכני הוא:
https://next.obudget.org/datapackages/procurement/spending/quarterly-contract-spending-reports-data/

יש גם מידע יותר מעובד כאן:
https://datahub.io/budgetkey/latest-contract-spending#python

היי, הצצתי קצת והדאטא נראה קצת מסובך בשבילנו ( טקסט + עברית ?) , אולי אני טועה ופספסתי משהו?

(הצצתי ב DATAHUB).

אולי יש דאטא עם מטריקות קצת יותר פשוטות ? בינארי\מספרים ?

תודה!