Skip links

 

ברוכים Big Data – על קצה המזלג

 

(מאמר זה הוא קיצור של המאמר שכתבתי: “תורת הביג”)

המון מילים ומאמרים נכתבו על נושא שנקרא BigData.

אין-ספק שהדבר גורם לבלבול רב ולעיתים לחוסר הבנה בסיסי.

Big Data – הכי קצר שאפשר

אנסה להסביר בפשטות את הנושא:

– BigData כפי ששמו מרמז עליו הוא מאגר נתונים גדול. כבר כיום שיעור הנתונים בעולם נע בסביבות ה- 1.2 Zettabyte. והמידע הזה הולך לגדול פי 40 בתוך כ-5 שנים.

טבלה סוגי גודל הנתונים:

http://www.c-sharpcorner.com/UploadFile/mahesh/cracking-big-data/Images/Data-Size-Table.png

קצב הנתונים גדל הן בגלל כמות הנתונים אותם אנחנו צורכים ומייצרים: מוזיקה, תמונות, וידאו, תקשורת ועוד. כמו-כן עסקים רבים עוברים אל נושא ענן (נושא מדהים וחשוב) וכמובן כל תעבורת האינטרנט.

אל נשכח את המכשירים הניידים!

וכמובן שרוב המידע לא נמחק.

בעולם נשלחים מידי יום מעל 300 מיליארד אימיילים!

מכאן אפשר להסיק : BigData = מידע (Info)

אבל גודל הנתונים לכשעצמם אין בו תועלת אלה אנו צריכים להוסיף לנוסחה מרכיב חשוב שנקרא לו: נתונים חכמים.

אזי הנוסחה החדשה:

BigData = SmartData = Info

האתגר:

האתגר הגדול ביותר הוא לעבד ולעצב את כמות הנתונים הגדולה הזו. להפיק בה רוח חיים

לדלות ממנה את המידע החשוב במהירות ויעילות.

עשרות חברות בשנים האחרונות מנסים לפתח אלגוריתמים ונוסחות מול המפלצת

הזו שנקראת: BigData

דוגמא לחברות כאלה: SAP Hana, מיקרוסופט, אורקל, אמזון, גוגל, VoltDB

וכמובן IBM. (אגב, IBM מובילה בתחום: שילוב בין בינה עיסקית ו-BigData )

כמובן שהמטרה היא לחלץ נתונים מתוך המאגר הגדול בדרך המהירה ובטכניקות שיכול לשמש יתרון עסקי.

היי… מתי זה התחיל?

בתחילת שנות ה-2000 חברת Google פיתחה גרסה משלה כדי לנתח את אתרי האינטרנט בעולם. טכנולוגיה זו משמשת אותם גם במוצרים האחרים שלהם כגון: Goggle Map

דוגמא בבקשה

בואו ננסה להבין על ידי דוגמא איך הטכנולוגיה עובדת.

אם אנו רוצים למצוא ממוצע של אלף מספרים שלמים וחיוביים. הנוסחה פשוטה:

ממוצע = סכום כל המספרים / כמות המספרים.

Avg = sum(Numbers) / count(Numbers)

אבל אם יש לנו מיליארד מספרים שלמים חיובים הנוסחה למעלה “טובה אך לא מצוינת”. אנו גם יודעים שממוצע של ממוצע אינו ממוצע. אז צריך דרך לפתור את הבעיה.

שיטת החלוקה / שיטת השלבים

בואו ננסה לפתור את הבעיה בשלבים:

שלב 1: לאחסן כל 1/5 מנתונים מחשבים שונים. נקרא לכל 1/5 בשם: x1,x2,x3,x4,x5

שלב 2: עכשיו כל מחשב יחשב בנפרד את הסכום (SUM) ואת הכמות (COUNT)

שלב 3: עכשיו מחשב אחד יחשב את סך כל הסכומים:

Sum_global = sum1 + sum2+sum3+sum4+sum5

ומחשב נוסף יחשב את כל הכמויות:

count_Global = count(count1,count2,count3,count4,count5)

שלב 4: נבצע את חישוב הממוצע:

Avg = sum_global / count_global

זו דוגמא מאוד פשוטה לפתרון של BigData

אז לא פלא שהעולם הולך לכיוון של BigData.

הממשל הפדרלי של ארצות הברית מחזיק 16 מחשבי על החזקים בעולם.

אייביי (ebay) משתמש במחסן נתונים של 2PB.

כך ממש על קצה המזלג ניסיתי להראות לאן “הענקים” חותרים.

כיום כל מיישם או מפתח צריך לחשוב בראש של BigData.

סיכום מהמציאות

לסיום אתן דוגמא מאתר בו אני עובד:

יש לנו בסיס נתונים של 16T.

ברמת ה-basis הגדרתי את הזיכרון, ריצה מקבילית, ועוד כל מיני “מרעין בישין” של ביסייס.

לקחנו תוכנית ( ABAP Report) שכתב מפתח והרצנו. (דגש על קוד נקי)

לאחר מכן ישבנו יחד ובצענו שינויים בתוכנית (תוכניות) לעבודה בשיטת החלוקה. (שיטת השלבים.)

זמני התגובה ירדו ב-56%.

לאחר-מכן כתבתי (עם שקד) את התוכנית בשפת C# (במטרה לקבל אותו פלט) והרצנו מול הבסיס נתונים.

זמני התגובה ירדו ב-80%.

 

פוסטים מותאמים עבורך

רישום יומן אירועים / שינויים ב- OB52

ביטול רישום יומן אירועים / לוג בטבלה – Disable Table Logging

הסרת JRE מחבילות Eclipse –  ADTABAP

היתרונות והחסרונות של מעבר ממסד נתונים קיים ל-SAP HANA

יתרונות והחסרונות של טבלה בתצורת COL וטבלה בתצורת ROW

קיצורי מקשים לפיתוח ABAP ADT

קיצורי מקשים ב-‏ SAP Web IDE ‏- shortcut key

ספריה / מחיצת ה- HANA LOG מלאה – דיסק מלא של יומן אירוע

טבלה עם קיצורי הדרך הנפוצים ביותר ב- SAP GUI

התקנה – Install ABAP Development Tools (ADT)

עדכון / שדרוג SP SAP HANA – SAP HANA SPS upgrade

שלושה דרכים לבדוק גרסת SAP HANA – Check SAP HANA Version

קיצורי מקשים ב-‏ SAP Web IDE

ערכים עבור OkCode – תיבת הטרנזקציה

ברוכים Big Data – על קצה המזלג

ההבדלים בין SAP HANA ו־S/4HANA

הגדרת Managed System Note Assistant (SNOTE)

ביטול היסטורית הקלדות בשדות ספציפיים – לדוגמא שדה משתמש במסך כניסה

פיצול מסך בפיתוח – ABAP Split Screen

עדכון טבלאות בייצור – Client status not modifiable

יתרונות והחסרונות של מעבר ממסד נתונים קיים ל-SAP HANA

סייר
גרור