Data Science Tutorials (Hebrew)
Group 4 - Machine Learning

דרישות קדם לכלל הקבוצה: כל סרטוני קבוצה 1

• מטרות השיעור:
דוגמאות בסיסיות לשימוש במבחנים סטטיסטיים בPython.
 
• דרישות קדם:
T-Test, ANOVA, Python, Pandas, Colab notebooks.
 
• מומלץ לצפות קודם בהדרכה מספר 23
• אורך השיעור: 00:08:37

תת קבוצה 4.1 – machine learning intro

דרישות קדם לכלל הקבוצה: כל סרטוני קבוצה 1

• מטרות השיעור:
למד מה זה מדעי הנתונים והחשיבות שלו.
 
• דרישות קדם: אין.
 
• אורך השיעור: 00:07:48

• מטרות השיעור:
למד את השלבים של פרויקט במדעי נתונים וכיצד ליישם אותם בPython וחבילת sklearn.
 
• דרישות קדם:
Python, Colab, ידע בסיסי במדעי הנתונים.
 
• מומלץ לצפות קודם בכל ההדרכות בקבוצה 1
• אורך השיעור: 00:12:43

• מטרות השיעור:
למד כיצד להעריך ולמדוד את ביצועי המודל שלך באמצעות חבילת sklearn.
 
• דרישות קדם:
Python, Colab, ידע בסיסי במדעי הנתונים.
 
• מומלץ לצפות קודם  בכל ההדרכות בקבוצה 1, ובנוסף בהדרכות 24,25
• אורך השיעור: 00:14:48

Here you can find the explanations – how to use a confusion matrix for regression problems. The confusion matrix is a useful tool for classification problems sometimes we can use it also for regression problems.

א) איך לפתור בעיות רגרסיה – חיזוי מחיר של בית עבור אוסף נתונים HOUSING
ב) נעריך איכות של מודל בעזרת שימוש במודול matrix confusion

:מבוא

בבעיות רגרסיה משתנה מטרה מקבל ערכים מספריים, למשל מחיר של בית. אפשר להעריך איכות של מודל רגרסיה בעזרת מקדם R בריבוע או בדרכים אחרות. מטריצת בלבולים עוזרת להבין מהו איכות של מודל סיווג. האם אפשר להשתמש במטריצת בלבולים עבור בעיות רגרסיה? כן, לאחר הכנה מתאימה.

1) יש לפתוח נתונים HOUSING בעזרת מודול FILE. בנתונים האלו המטרה היא לתת תחזית עבור משתנה מטרה כמותי MEDV

2) בעזרת מודולים REGRESSION LINEAR ו -SCORE AND TEST נבנה מודל חיזוי עבור הנתונים:

אפשר להעריך איכות המוד ל בעזרת מקדם R בריבוע

3) כדאי להשתמש במטריצת בלבולים נצטרך להפוך נתונים שלנו לאיכותיים, נעשה זה בעזרת מודול .FEATURE CONSTRUCTOR

כמו שאפשר לראות אנו חלקנו תחום של מחירים ל3- אזורים,:small big ,medium ועכשיו נוכל מטריצת בלבולים בעזרת מודול PIVOT

אם נסתכל במטריצה אפשר לראות שעל בתים יקרים המודל שלנו טעה רק פעם אחת ועבור ביתים זולים מודל שלנו ברבע מהמקרים נותן תחזית שגויה.
אפשר גם להשתמש במודול PLOT SCATTER . אבל לפעמים הצגה בעזרת מטריצת בלבולים יותר פשוטה

PDF File

איגוד מדעי הנתונים בלשכת המהנדסים
https://www.aeai.org.il/professional-society/data-science/


פודקאסטים בנושא מדע הנתונים:

https://www.aeai.org.il/talking-data-podcast/

פרק 9 – מהפכת Moneyball
פרק 8 – הטיות מגדריות במחקר כמותי
פרק 7 – סביבת העבודה של מדען הנתונים
פרק 6 – מבוא למערכות המלצה
פרק 5 – מדעי הנתונים להגנת הסביבה
פרק 4 – מבוא לעיבוד שפה טבעית (NLP(
פרק 3 – רשתות למידה
פרק 2 – שוק העבודה למדעני נתונים
פרק 1 – אמנות חקר הנתונים

תת קבוצה 4.2 – machine learning examples

דרישות קדם לכלל הקבוצה: כל סרטוני קבוצות 1,4.1

• מטרות השיעור:
למד שיטה של למידת המכונה – Support Vector Machine (SVM), וכיצד להשתמש בה עם חבילת sklearn.
 
• דרישות קדם:
Python, Colab, ידע בסיסי במדעי הנתונים.
 
• אורך השיעור: 00:13:09

• מטרות השיעור:
דוגמה של מקרה שימוש לניתוח סנטימנטים עם בסיס נתונים של Kaggle.
 
• דרישות קדם:
Python, Colab, SVM, ידע בסיסי במדעי הנתונים.
 
• מומלץ לצפות קודם בהדרכות מספר 24,25,26
• אורך השיעור: 00:04:07

• מטרות השיעור:
דוגמה של מקרה שימוש לבעיית סיווג נושאים עם בסיס נתונים של Kaggle.
 
• דרישות קדם:
Python, Colab, SVM, ידע בסיסי במדעי הנתונים.
 
• מומלץ לצפות קודם בהדרכות מספר 24,25,26
• אורך השיעור: 00:06:30

Decision tree is a helpful tool both for classification and regression tasks.

 

 

שימוש במודל עץ החלטה עבור בעיות סיווג

מטרה: בשיעור זה נדגים ונסביר עקרונות שימוש למודל יחסית פשוט ומאוד שימושי עץ החלטה. נדגים שימוש במודל על בעיות סיווג.

זמן קריאה: 15 דקות

מטלה לביצוע: מובנת בתוך המסמך

PDF File

 

Look-alike photos\images

Orange widget – Neighbors accept an image and output the nearest neighbors of that image.

https://orangedatamining.com/blog/2020/2020-01-08-neighbors-images/

חיפוש תמונות דומות בעזרת מודול לחיפוש שכנים

מטרה: בשיעור זה נלמד איך לחפש תמונות דומות לתמונה נתונה בעזרת מודול חיפוש שכנים. הכלי יכול לעזוק לחוקרים שעובדים עם תמונות.

זמן קריאה: 10 דקות

מטלה לביצוע: מובנת בתוך המסמך

PDF File

Simple linear regression in Orange

Linear regression is a very simply technique.  It can be usefor for a large number of prediction tasks. In this tutorial, you will build linear regression  model step-by-step in Orange. 

The tutorial does not assume any prior background in statistics or programming. 

Linear regression: wine price prediction (55 min)

חיזוי מחיר עתידי של יין בעזר בעזרת רגרסיה ליניארית

פתרון בעיות רגרסיה בעזרת רגרסיה ליניארית בתוכנת Orange

מטרה: ללמוד מודל פשוט ושימושי רגרסיה ליניארית עבור בעיות שבהם משתנה תלוי הוא מספרי.

זמן קריה: 30-20 דקות

מטלה לביצוע: מובנת בתוך המסמך

PDF File

Build your deep network freely in 10 minutes

LOBE is a free software that has almost everything you need to bring your machine learning project to life. In the tutorial, we demonstrate how to build a network for image classifications.

Video build network in 10 minutes

בניית רשת נוירונים לקבצי תמונות ב-10 דקות

מטרה:

  1. להכיר מערכת חינמית LOBE.AI לבנית רשת נוירונים לעבודה עם תמונות
  2. ללמוד איך לאסוף תמונות ממצלמת מחשב תוך דקות ספורות
  3. ללמוד איך לאמן רשת נוירונים כדי לפתור בעיית סיווג תמונות 

זמן קריאה: 10 דקות

PDF File

מטלה לביצוע:  כ-10  דקות לביצוע

 

 

 

KNN  is a very popular and simple prediction tool.
Below we will demonstrate how to use random forest in Orange Data Mining both for regression and classification problems.

מטרה: ללמוד איך להשתמש במודל K שכנים הכי קרובים למטרת פרדיקציה

זמן הקריאה: כ-10 דקות

בהדרכה זו נדגים:

  • עקרונות שימוש במודל K-שכנים הכי קרובים

מבוא:  קיים מספר רב של מודלי ניבוי. לכל מודל יש יתרונות וחסרונות. מודל KNN הוא די פשוט להבנה. כדי לעשות חיזוי משתמשים בתצפיות הכי קרובות לתצפית שעבורה בונים חיזוי. במודל יש לבחור בכמה שכנים להשתמש ומהי מטריקת המרחק. אפשר להשתמש במודל זה גם עבור בעיות סיווג וגם עבור בעיות רגרסיה.

שימוש ב-KNN עבור בעיות רגרסיה:

נשתמש בנתונים של HOUSING. משתנה מטרה כאן היא MEDV – מחיר של בית

כאן השתמשנו ב-9 שכנים ומטריקת MANHATTAN. כמו שאפשר לראות איכות של מודל לפי R בריבוע היא 0.559.

ניתן לנסות לשפר את המודל. נבחר 3 שכנים ומטריקת MAHALOBIS, איכות המודל עלתה ל0.79.

שימוש בKNN עבור בעיות רגרסיה. נבחר נתונים של מחלות לב: HEAR DECEASE.

עבור 3 שכנים ומטריקת EUCLIDEAN  איכות של מודל לפי קריטריון AUC הינה 0.628.

ניתן לנסות לשפר איכות המודל על ידי שינוי מספר שכנים ומטריקת מרחק.

.

PDF File

Random forest is a very robust and powerful prediction tool.
Below we will demonstrate how to use random forest in Orange Data Mining both for regression and classification problems.

המטרה : ללמוד אלגוריתם גמיש לחיזוי – יער אקראי

זמן הקריאה: כ-20 דקות

בהדרכה זו נדגים:

  • איך להשתמש במודול RANDOM FOREST ולבנות מודלים לניבוי

מבוא:  קיים מספר רב של מודלי ניבוי. לכל מודל יש יתרונות וחסרונות. מודל של יער אקראי הוא אחד המודלים הגמישים אם יכולת אינטרפרטציה נמוכה.  בדרך כלל נשתמש במודל זה אם איכות ניבוי יותר חשובה מיכולת לפרש את התוצאות.

רעיון של המודל: לגדל בצורה חכמה מספר עצי החלטה (מודלים יותר פשוטים) ואז להשתמש בהרבה עצים כדי לקבל החלטה סופית.

 

שימוש ביער אקראי עבור בעיות רגרסיה:

  • פתחו את נתונים HOUSING בעזרת מודול FILE ובנו מודל לחיזוי מחיר עתידי של בית בעזרת מודול RANDOM FOREST, בעזרת מודול TEST AND SCORE העריכו איכות של המודל

אפשר לנסות לבנות מודלים אחראים ולהשוות בין תוצאתם:

כמו שאפשר לראות, כאן התקבלו תוצאות הכי טובות עבור מודל יער אקראי.

אפשר לנסות לעשות ויזואליזציה של יער בעזרת מודול PYPHOGORIAN FOREST

שימוש ביער אקראי עבור בעיות סיווג דומה מאוד לשימוש עבור בעיות רגרסיה.

כעת בחרו בנתוני של מחלות לב – heart disease

גם כאן אפשר להשוואת ביצועים של מודלים שונים

אפשר להיעזר בPYTHOGORIAN FOREST כדי לראות את היער שהתקבל

PDF File

In this document we will demonstrate how to do topic modeling by LDA in Orange Data Mining. This document can be usefull for text data analysis.

מטרה: ללמוד איך למצוא נושאים בנתונים טקסטואליים בעזרת LDA

זמן הקריאה: כ-15 דקות

בהדרכה זו נדגים:

  • איך לעבוד עם נתונים טקסטואליים
  • איך למצוא נושאים אבסטרקטים בקורפוס

מבוא:  חיפוש נושאים אבסטרקטים בקורפוס מבוס על חיפוש אשכולות של מילים עבור כל מסמך. בדרך כלל בכל מסמך אפשר למצוא נושאים שונים במשקל (חשיבות) שונה.

 

  • פתחו אגדות של אחי גרים בעזרת מודול CORPUS

  • בצעו עיבוד מקדים של הנתונים – בסטנדרטי בעזרת מודול PREPROCESS TEXT

בשלב זה נהפוך כל האותיות לאותיות קטנות, ונשארי רק את המילים עם תדירויות בין 0.1 ל0.9

  • נהפוך כל טקסט לשק של מילים, כדאי להשתמש קריטריון IDF היות ובדרך כלל הוא עובד די טוב עבור חיפוש נושאים.

  • בעזרת מודול TOPIC MODELING נמצא 6 נושאים בקורפוס שלנו.

כמו שאפשר לראות נושא ראשון מדבר כנראה על חיות. נושא שני כנראה מדובר על אגדות קסם היות ויש מילים כמו: king, prince, wife, etc

אפשר להשתמש במודול LDAVIS כדי לנסות להבין את התוצאות בצורה יותר מעמיקה

 

PDF File

תת קבוצה 4.3 – machine learning - neural networks basics

דרישות קדם לכלל הקבוצה: כל סרטוני קבוצות 1,4.1

• מטרות השיעור:
למד מהו perceptron – יסודות של רשתות נוירונים.
 
• דרישות קדם:
ידע בסיסי במדעי הנתונים.
 
• אורך השיעור: 00:13:36

• מטרות השיעור:
למד מהן רשתות נוירונים מלאכותיות (ANNs) – היסטוריה והדגמות (ללא קוד).
 
• דרישות קדם:
ידע בסיסי במדעי הנתונים, perceptron.
 
• אורך השיעור: 00:12:55

•  מטרות השיעור:
דוגמה לשימוש ב-ANN עם חבילת sklearn.
 
• דרישות קדם:
Python, ANNs
 
• מומלץ לצפות קודם בהדרכות מספר 19,27
• אורך השיעור: 00:09:11

תת קבוצה 4.4 – machine learning

Ranking of attributes can help both in regression and classification problems. 

The rank model scores independent variables according to their importance.

Read more…

בחירת המאפיינים הכי חשובים

מטרה: ללמוד איך אפשר לבחור מאוסף משתנים בלתי תלויים המשתנים החשובים לניבוי,כלומר ללמוד איך ניתן לצמצם את מספר משתנים בלי לפגוע באיכות המודל.

זמן קריאה: 15 דקות

מטלה לביצוע: מובנת בתוך המסמך

There’s nothing more beautiful than seeing your data in plot. Violin plots are thus great for exposing underlying distributions, especially if they are multimodal, which cannot be determined from the box plot and histogram.

בניית גרף ויולין בעזרת אורנז’

מטרה: בשיעור זה נלמד כלי עזר נוסף לויזואליזציה – גרף ויאולין. הכלי מאוד פשוט לשימוש ומאפשר הצגה נוחה לתנונים קמותיים.

זמן קריאה: 10 דקות

מטלה לביצוע: מובנת בתוך המסמך

PDF File

Word cloud is a useful way to visualize text data. 
Words are presented in the form of cloud, their size denoting the frequency of the word in the data (corpus)

Word Cloud – example

בניית ענן מילים באורנז

מטרה: לממוד כלי עזר לעבודה עם נתוני טקסט. בעזרת ענן מילים חוקר אוכל לבצע ויזואליזציה וסיכום של נתונים בצורה מונחשית.

זמן קריאה: 10 דקות

מטלה לביצוע: מובנת בתוך המסמך

PDF File

 

 

Standard protocol for data analysis

Cross-industry standard process for data mining

The cross-industry standard process for data mining, known as CRISP-DM is an open standard process model that describes common approaches used by data mining experts.

In this section, we describe the main advantages of the protocol, its weak and strong sides. 

For an explanation in English press.

CRISP-DM (Hebrew) – 10 minutes

CRISP-DM תהליך סטנדרטי לעבודה עם נתונים

בפרק זה נכיר תהליך סטנטרטי לעבודה עם נתונים

CRISP-DM מאפשר לעבוד עם דאטה בצורה מסודרת ושיטתית.

בוידאו מוסר צריונל של כל אחד מהשלבים ונתונות דוגמאות לשימוש

Spiralogram is a useful visualization tool.
It helps us to understand better the seasonality and pereodicity in time series.

מטרה: ללמוד איך להציג סדרות זמן בצורה ויזואלית נוחה להבנה וניתן בעזרת מודול spiralogram

זמן הקריאה: כ-15 דקות

בהדרכה זו נדגים:

  • איך להוריד נתונים מאתר תחרויות של מדעני נתונים KAGGLE
  • איך לפתוח את הנתונים בתוכנה חינמית ORANGE
  • איך להשתמש במודול spiralogram כדי להציג את הנתונים בצורה ויזואלית

מבוא: סדרות זמן time series הם נתונים הנאספות לאורך הזמן. למשל, טמפרטורה ימית הנמדדת פעם ביום, או מחיר מנייה הנמדד פעם בדקה.

 

הורדת נתונים: יש להוריד וקובץ בשם ma_lga_12345.csv מאתר תחרויות של מדעני נתונים KAGGLE.

https://www.kaggle.com/datasets/htagholdings/property-sales?resource=download

פתיחת נתונים בעזרת מודול file: הריצו תוכנה ORANGE ואז פתחו את הנתונים בעזרת מודול file

כמו שאפשר לראות מתיור הקצר בנתונים שלנו יש 347 תצפיות ו-4 מאפיינים: MA מחיר, SALEDATE תאריך מכירה,  TYPEסוג של הבית, מספר חדרי שיני.

אשפר לחקור את הנתונים בעזרת כלים סטנדרטים לאנליזה ראשונית: data table, feature statistics, distributions

אבל היות ומדובר בסדרת הזמן, נעזר בכלים מתאימים יותר, למשל בספיראלוגרם.

בעזרת מודל EDIT DOMAIN שינו את סוג של משתנה SALEDATE לסוג TIME ואז חברו את התוצאה למודול SPIRALOGRAM כמו בציור למעטה

כעת פתחו את המודול ספירלוגרם:

בחרו time period להיות שווה saledate במרווחי זמן – שנה, radial להיות שווה למספר חדרי שינה, כדאי לראות שוני במחרה בתים לפי מספר חדרי שינה ו-сolor להיות שווה למחיר .MA

כמו שאפר לראות בקלות – מחירה בית עולים משנה לשנה וככל שיש יותר מספר חדרי שינה מחרי בית גם כן עולים.

PDF File