Data Science Tutorials
Group 5 - Dimentiality Reduction and Clustering

Image Clustering

Deep learning can be useful for images clustering

 

מטרת מסמך: ללמו ד איך לחלק תמונות לאשכולות.

זמן קריאה: 15 דקות

תרגיל מעשי: מובנה במסמך

 

The Manifold Module in Orange Data Mining includes many useful tools for dimensionality reduction.

מטרה: ללמד דרך שונות להפחתת מימד

זמן הקריאה: כ-10 דקות

בהדרכה זו נדגים:

  • דרכים שונות לוויזואליזציה של נתונים בעזרת שיטות להפחתת מימד

מבוא:  בהרבה מקרים הנתונים שלנו הינם רב מימדיים ולכן קיים קושי בהצגה גרפית נוחה ועזור של הנתונים. לפעמים ניתן להיעזר בשיטות שונות להפחתת מימד וכך להציג את הנתונים בצורה יעילה יותר.

קיים מספר רק של שיטות להפחתת מימד, למשל, tsne, MDS, ISOMAP, LLE, spectral clustering, …

ניתן להשתמש בשיטות הנייל בעזרת מודול MDS של ORANGE

  • פתחו נתוני IRIS בעזרת מודול DATASETS

כעת ננסה להציג את הנתונים בעזרת מודול SCATTER PLOT ושיטות שונות להפחת מימד. שימו לב, לא כל השיטות נותנות תוצאות טובות.

TSNE

כמו שאפשר לראות קיימת הפרדה טובה בין IRIS-SETOSA לשאר הפרים. אפשר לנסות מטריקות מרחק שונות.

MDS

גם כאן קיבלנו הפרדה די טובה

ISOMAP

LLE

Spectral Clustering

 

PDF File

Unsupervise learning can be impoved by different visualization techniques and additional the combination of visualization and old school box plot can give fruitfull results.

מטרה: ללמד דרך נוספת לאפיון אשכולות

זמן הקריאה: כ-10 דקות

בהדרכה זו נדגים:

  • איך לבצע למידה ללא מורה – למצוא אשכולות בעזרת מודול ויזואלי TSNE
  • איך להבין מהות של אשכולות בעזרת מודול BOX PLOT

מבוא:  בלמידה לא מפוקחת אין משתנה מטרה. אחת המשימות השימושיות במקרה זה היא לחלק נתונים לאשכולות. עבר לחפש אשכולות בדרכים שונות: kmeans, dbscan, hierarchical clustering, tsne,…

אחרי שחוקרים מוצאים אשכולות, חשוב לנסות להבין מהי מהות של כל אשכול. היום נראה איך להשתמש במודול BOX PLOT במטרה להבין את האשכולות שקיבלנו.

  • בעזרת מודול DATASETS טענו את הנתונים EMPLOYEE ATRITION

כמו שאפשר לראות בנתונים יש 1470 תצפיות ו32 משתנים.

  • נעזר בשיטת הפחת מימד TSNE בעזרת מודול TSNE

אפשר לראות כאן 5 אשכולות.

כעת חשוב להבין מהו מהות של אשכול. לצורך דוגמא נבחר את האשכול הימיני ביותר. יש להיעזר בכפתור CTRL כדי לבחור את הנקודות של האשכול.

  • נחבר את המודול BOX PLOT למודול TSNE

אפשר לראות שבאשכול שבחרנו כולם ממחלקת SALES

לצורך תרגיל עצמי כדאי לנסות נתונים אחרים, אפשר גם להשתמש בשיטות שונות לחיפוש אשכולות.

PDF File