Topic Modeling in Orange - NLP

In this document we will demonstrate how to do topic modeling by LDA in Orange Data Mining. This document can be usefull for text data analysis.

מטרה: ללמוד איך למצוא נושאים בנתונים טקסטואליים בעזרת LDA

זמן הקריאה: כ-15 דקות

בהדרכה זו נדגים:

  • איך לעבוד עם נתונים טקסטואליים
  • איך למצוא נושאים אבסטרקטים בקורפוס

מבוא:  חיפוש נושאים אבסטרקטים בקורפוס מבוס על חיפוש אשכולות של מילים עבור כל מסמך. בדרך כלל בכל מסמך אפשר למצוא נושאים שונים במשקל (חשיבות) שונה.

 

  • פתחו אגדות של אחי גרים בעזרת מודול CORPUS

  • בצעו עיבוד מקדים של הנתונים – בסטנדרטי בעזרת מודול PREPROCESS TEXT

בשלב זה נהפוך כל האותיות לאותיות קטנות, ונשארי רק את המילים עם תדירויות בין 0.1 ל0.9

  • נהפוך כל טקסט לשק של מילים, כדאי להשתמש קריטריון IDF היות ובדרך כלל הוא עובד די טוב עבור חיפוש נושאים.

  • בעזרת מודול TOPIC MODELING נמצא 6 נושאים בקורפוס שלנו.

כמו שאפשר לראות נושא ראשון מדבר כנראה על חיות. נושא שני כנראה מדובר על אגדות קסם היות ויש מילים כמו: king, prince, wife, etc

אפשר להשתמש במודול LDAVIS כדי לנסות להבין את התוצאות בצורה יותר מעמיקה