Topic Modeling in Orange - NLP
In this document we will demonstrate how to do topic modeling by LDA in Orange Data Mining. This document can be usefull for text data analysis.
מטרה: ללמוד איך למצוא נושאים בנתונים טקסטואליים בעזרת LDA
זמן הקריאה: כ-15 דקות
בהדרכה זו נדגים:
- איך לעבוד עם נתונים טקסטואליים
- איך למצוא נושאים אבסטרקטים בקורפוס
מבוא: חיפוש נושאים אבסטרקטים בקורפוס מבוס על חיפוש אשכולות של מילים עבור כל מסמך. בדרך כלל בכל מסמך אפשר למצוא נושאים שונים במשקל (חשיבות) שונה.
- פתחו אגדות של אחי גרים בעזרת מודול CORPUS
- בצעו עיבוד מקדים של הנתונים – בסטנדרטי בעזרת מודול PREPROCESS TEXT
בשלב זה נהפוך כל האותיות לאותיות קטנות, ונשארי רק את המילים עם תדירויות בין 0.1 ל0.9
- נהפוך כל טקסט לשק של מילים, כדאי להשתמש קריטריון IDF היות ובדרך כלל הוא עובד די טוב עבור חיפוש נושאים.
- בעזרת מודול TOPIC MODELING נמצא 6 נושאים בקורפוס שלנו.
כמו שאפשר לראות נושא ראשון מדבר כנראה על חיות. נושא שני כנראה מדובר על אגדות קסם היות ויש מילים כמו: king, prince, wife, etc
אפשר להשתמש במודול LDAVIS כדי לנסות להבין את התוצאות בצורה יותר מעמיקה