תהליכי ETL

תהליכי ETL

ETL  הינו ראשי תיבות באנלית שמשמעותו גזירה (Extract), טרנספורמציה או שינוי (Transform) וטעינה (Load). כלי ETL זה בעצם כלי שמשתמשים בו על מנת להגיע לאחידות של נתונים מתוך מספר מערכות תפעוליות למטרה לאחד את הנתונים לתוך מחסן נתונים לשימוש העתידי בכלי אחזור של הדוחות או בקוביות OLAP.

 כלי ETL יהיו נחוצים כי ראשית, בכל בסיס נתונים יש טעויות או בעת הכנסת נתונים או בעת שינויי נתונים או עקב באגים. מצד שני קיים הבדל טבעי בין נתונים שמנוהלים במערכות שונות כי כל מערכת תיפעולית נועדה למטרה מסויימת  ואין סיבה שמערכת שעוסקת ברכש מוצרים תפתח שפה משותפת עם מערכת ניהול לקוחות ברמת נתון בודד.

כל זה מביא לעולם צורך בכלי טעינת נתונים אשר יודע לשלוף מידע מכל מערכת בארגון ולהעבירה לשכבת המידע העיסקית – ה- Data warehouse.

כל תהליך ETL מורכב משלושה שלבים עיקריים:

  1. תהליך טעינת הנתונים ממספר מערכות תיפועליות לשכבנת ביניים אחת (שכבנת MRR) עם בדיקת תקינותם ברמת סכומים כללים וכמויות ברמת השורות מול מערכת תפעולית
  2. תהליך עיבוד, טרנספורמציה, אגרגציה ומיפוי של נתונים חדשים בהתאמה למודל הסופי של מחסן הנתונים שמתבצע בשכבת ביניים נוספת (שכבנת STG).
  3. תהליך קליטת נתונים לטבלאות יעד של מחסן הנתונים (מיזוג או מחיקה-הכנסה)

סכמת תהליך ETL לפי השלבים העיקריים

בין כלי ETL  הבולטים בעולם ה-BI בשוק אפשר למצא כלי ETL מבית Microsoft  – SQL Server Integration Services. הכלי הזה מהווה חלק מסט כלי BI של Microsoft   שמספק  פתרון BI  מקצה לקצה לכל ארגון או חברה.

גרסה האחרונה של  SQL Server Integration Services 2016 מאפשרת בנוסף למקורות מידע פנים ארגוניים (on-premise)  כמן  SQL Server, Oracle, DB2, SAP להתחבר למקורות מידע היושבים בענן Azure   ו- HDInsight HIVE/PIG Task. SSIS מקנה אפשרות לעבודה רחבה עם מערכת קבצים של   Microsoft Windows ומערכת HDFS. בנוסף לכך  SSIS קיבלה אפשרות להריץ תהליך הכנת נתונים לניתוח בעמצאות R.

לצד ההרכבת מקורות המידע ואפשרויות חיבור ניתן לציין שגרסה אחרונה של SSIS השתפרה משמעותית מבחינת נחות השימוש ורמת הביצועים בשילוב עם SQL Server Management Studio – כעת SSIS תומכת בכל הגרסאות של Sql Server, תהליך ההתקנה משולב עם פריסת Sql Server בתחנה או שרת. גישה לקטלוג של SSIS  בסביבת SQL Server Management Studio מהיר ואינטויטיבי יותר.

דטה קיוב ביצעה עשרות פרויקטי BI הכוללים תהליכי ETL  במגוון רחב מאו'ד של כלים – נשמח לסייע בנושא.

קיריל דמידוב,מפתח BI

דטה קיוב