Data Science Tutorials
Group 5 - Dimentiality Reduction and Clustering
Image Clustering
Deep learning can be useful for images clustering
מטרת מסמך: ללמו ד איך לחלק תמונות לאשכולות.
זמן קריאה: 15 דקות
תרגיל מעשי: מובנה במסמך
The Manifold Module in Orange Data Mining includes many useful tools for dimensionality reduction.
מטרה: ללמד דרך שונות להפחתת מימד
זמן הקריאה: כ-10 דקות
בהדרכה זו נדגים:
- דרכים שונות לוויזואליזציה של נתונים בעזרת שיטות להפחתת מימד
מבוא: בהרבה מקרים הנתונים שלנו הינם רב מימדיים ולכן קיים קושי בהצגה גרפית נוחה ועזור של הנתונים. לפעמים ניתן להיעזר בשיטות שונות להפחתת מימד וכך להציג את הנתונים בצורה יעילה יותר.
קיים מספר רק של שיטות להפחתת מימד, למשל, tsne, MDS, ISOMAP, LLE, spectral clustering, …
ניתן להשתמש בשיטות הנייל בעזרת מודול MDS של ORANGE
- פתחו נתוני IRIS בעזרת מודול DATASETS
כעת ננסה להציג את הנתונים בעזרת מודול SCATTER PLOT ושיטות שונות להפחת מימד. שימו לב, לא כל השיטות נותנות תוצאות טובות.
TSNE
כמו שאפשר לראות קיימת הפרדה טובה בין IRIS-SETOSA לשאר הפרים. אפשר לנסות מטריקות מרחק שונות.
MDS
גם כאן קיבלנו הפרדה די טובה
ISOMAP
LLE
Spectral Clustering
Unsupervise learning can be impoved by different visualization techniques and additional the combination of visualization and old school box plot can give fruitfull results.
מטרה: ללמד דרך נוספת לאפיון אשכולות
זמן הקריאה: כ-10 דקות
בהדרכה זו נדגים:
- איך לבצע למידה ללא מורה – למצוא אשכולות בעזרת מודול ויזואלי TSNE
- איך להבין מהות של אשכולות בעזרת מודול BOX PLOT
מבוא: בלמידה לא מפוקחת אין משתנה מטרה. אחת המשימות השימושיות במקרה זה היא לחלק נתונים לאשכולות. עבר לחפש אשכולות בדרכים שונות: kmeans, dbscan, hierarchical clustering, tsne,…
אחרי שחוקרים מוצאים אשכולות, חשוב לנסות להבין מהי מהות של כל אשכול. היום נראה איך להשתמש במודול BOX PLOT במטרה להבין את האשכולות שקיבלנו.
- בעזרת מודול DATASETS טענו את הנתונים EMPLOYEE ATRITION
כמו שאפשר לראות בנתונים יש 1470 תצפיות ו32 משתנים.
- נעזר בשיטת הפחת מימד TSNE בעזרת מודול TSNE
אפשר לראות כאן 5 אשכולות.
כעת חשוב להבין מהו מהות של אשכול. לצורך דוגמא נבחר את האשכול הימיני ביותר. יש להיעזר בכפתור CTRL כדי לבחור את הנקודות של האשכול.
- נחבר את המודול BOX PLOT למודול TSNE
אפשר לראות שבאשכול שבחרנו כולם ממחלקת SALES
לצורך תרגיל עצמי כדאי לנסות נתונים אחרים, אפשר גם להשתמש בשיטות שונות לחיפוש אשכולות.