ברוכים Big Data – על קצה המזלג
(מאמר זה הוא קיצור של המאמר שכתבתי: “תורת הביג”)
המון מילים ומאמרים נכתבו על נושא שנקרא BigData.
אין-ספק שהדבר גורם לבלבול רב ולעיתים לחוסר הבנה בסיסי.
Big Data – הכי קצר שאפשר
אנסה להסביר בפשטות את הנושא:
– BigData כפי ששמו מרמז עליו הוא מאגר נתונים גדול. כבר כיום שיעור הנתונים בעולם נע בסביבות ה- 1.2 Zettabyte. והמידע הזה הולך לגדול פי 40 בתוך כ-5 שנים.
טבלה סוגי גודל הנתונים:
קצב הנתונים גדל הן בגלל כמות הנתונים אותם אנחנו צורכים ומייצרים: מוזיקה, תמונות, וידאו, תקשורת ועוד. כמו-כן עסקים רבים עוברים אל נושא ענן (נושא מדהים וחשוב) וכמובן כל תעבורת האינטרנט.
אל נשכח את המכשירים הניידים!
וכמובן שרוב המידע לא נמחק.
בעולם נשלחים מידי יום מעל 300 מיליארד אימיילים!
מכאן אפשר להסיק : BigData = מידע (Info)
אבל גודל הנתונים לכשעצמם אין בו תועלת אלה אנו צריכים להוסיף לנוסחה מרכיב חשוב שנקרא לו: נתונים חכמים.
אזי הנוסחה החדשה:
BigData = SmartData = Info
האתגר:
האתגר הגדול ביותר הוא לעבד ולעצב את כמות הנתונים הגדולה הזו. להפיק בה רוח חיים
לדלות ממנה את המידע החשוב במהירות ויעילות.
עשרות חברות בשנים האחרונות מנסים לפתח אלגוריתמים ונוסחות מול המפלצת
הזו שנקראת: BigData
דוגמא לחברות כאלה: SAP Hana, מיקרוסופט, אורקל, אמזון, גוגל, VoltDB
וכמובן IBM. (אגב, IBM מובילה בתחום: שילוב בין בינה עיסקית ו-BigData )
כמובן שהמטרה היא לחלץ נתונים מתוך המאגר הגדול בדרך המהירה ובטכניקות שיכול לשמש יתרון עסקי.
היי… מתי זה התחיל?
בתחילת שנות ה-2000 חברת Google פיתחה גרסה משלה כדי לנתח את אתרי האינטרנט בעולם. טכנולוגיה זו משמשת אותם גם במוצרים האחרים שלהם כגון: Goggle Map
דוגמא בבקשה
בואו ננסה להבין על ידי דוגמא איך הטכנולוגיה עובדת.
אם אנו רוצים למצוא ממוצע של אלף מספרים שלמים וחיוביים. הנוסחה פשוטה:
ממוצע = סכום כל המספרים / כמות המספרים.
Avg = sum(Numbers) / count(Numbers)
אבל אם יש לנו מיליארד מספרים שלמים חיובים הנוסחה למעלה “טובה אך לא מצוינת”. אנו גם יודעים שממוצע של ממוצע אינו ממוצע. אז צריך דרך לפתור את הבעיה.
שיטת החלוקה / שיטת השלבים
בואו ננסה לפתור את הבעיה בשלבים:
שלב 1: לאחסן כל 1/5 מנתונים מחשבים שונים. נקרא לכל 1/5 בשם: x1,x2,x3,x4,x5
שלב 2: עכשיו כל מחשב יחשב בנפרד את הסכום (SUM) ואת הכמות (COUNT)
שלב 3: עכשיו מחשב אחד יחשב את סך כל הסכומים:
Sum_global = sum1 + sum2+sum3+sum4+sum5
ומחשב נוסף יחשב את כל הכמויות:
count_Global = count(count1,count2,count3,count4,count5)
שלב 4: נבצע את חישוב הממוצע:
Avg = sum_global / count_global
זו דוגמא מאוד פשוטה לפתרון של BigData
אז לא פלא שהעולם הולך לכיוון של BigData.
הממשל הפדרלי של ארצות הברית מחזיק 16 מחשבי על החזקים בעולם.
אייביי (ebay) משתמש במחסן נתונים של 2PB.
כך ממש על קצה המזלג ניסיתי להראות לאן “הענקים” חותרים.
כיום כל מיישם או מפתח צריך לחשוב בראש של BigData.
סיכום מהמציאות
לסיום אתן דוגמא מאתר בו אני עובד:
יש לנו בסיס נתונים של 16T.
ברמת ה-basis הגדרתי את הזיכרון, ריצה מקבילית, ועוד כל מיני “מרעין בישין” של ביסייס.
לקחנו תוכנית ( ABAP Report) שכתב מפתח והרצנו. (דגש על קוד נקי)
לאחר מכן ישבנו יחד ובצענו שינויים בתוכנית (תוכניות) לעבודה בשיטת החלוקה. (שיטת השלבים.)
זמני התגובה ירדו ב-56%.
לאחר-מכן כתבתי (עם שקד) את התוכנית בשפת C# (במטרה לקבל אותו פלט) והרצנו מול הבסיס נתונים.
זמני התגובה ירדו ב-80%.
פוסטים מותאמים עבורך
רישום יומן אירועים / שינויים ב- OB52
ביטול רישום יומן אירועים / לוג בטבלה – Disable Table Logging
הסרת JRE מחבילות Eclipse – ADTABAP
היתרונות והחסרונות של מעבר ממסד נתונים קיים ל-SAP HANA
יתרונות והחסרונות של טבלה בתצורת COL וטבלה בתצורת ROW
קיצורי מקשים ב- SAP Web IDE - shortcut key
ספריה / מחיצת ה- HANA LOG מלאה – דיסק מלא של יומן אירוע
טבלה עם קיצורי הדרך הנפוצים ביותר ב- SAP GUI
התקנה – Install ABAP Development Tools (ADT)
עדכון / שדרוג SP SAP HANA – SAP HANA SPS upgrade
שלושה דרכים לבדוק גרסת SAP HANA – Check SAP HANA Version
ערכים עבור OkCode – תיבת הטרנזקציה
ברוכים Big Data – על קצה המזלג
ההבדלים בין SAP HANA ו־S/4HANA
הגדרת Managed System Note Assistant (SNOTE)
ביטול היסטורית הקלדות בשדות ספציפיים – לדוגמא שדה משתמש במסך כניסה
פיצול מסך בפיתוח – ABAP Split Screen