This post is also available in: enEnglish (אנגלית)

 

20195618_sההגדרות עשויות להשתנות, אך הן כולן אומרות את אותו הדבר – מהו הטריק של מיצוי מידע שימושי, בזמן אמת, של כמויות הביטים העצומות הנאגרות כל דקה על ידי החיישנים השונים וכלי האיסוף ושמירת המידע שאנו מוקפים בהם.

משימה זו היא מה שגורם לד"ר איה סופר, מנהלת תחום ה-BIG DATA  ב-IBM, להיות עסוקה מאד בימים אלה. הבעיה מסתבכת מיום ליום, ונדרשות תשובות.

בשיחתה עם i-HLS, הגדירה ד"ר סופר את גודל הבעיה על ידי ציטוט מספר עובדות שהוכנו על ידי IBM, המתמחה בניהול המידע.

i-HLS Israel Homeland Security

כל יום, אנו יוצרים 2.5 קווינטיליון של נתונים – כל כך הרבה ש-90% מהנתונים היום נוצרו בשנתיים האחרונות בלבד.  הנתונים מגיעים מכל מקום: חיישנים המשמשים לאיסוף נתוני מזג אוויר, פוסטים לאתרי מדיה חברתית, תמונות וסרטוני ווידיאו דיגיטאליים, רשומות של עסקות קניה, ואותות GPS של טלפונים סלולאריים, כדי למנות רק מעט ממקורות המידע. מידע זה הוא BIG DATA.

ל-BIG DATA ארבעה ממדים: Volume, Velocity, Variety, ו- Veracity

 Volume (נפח): חברות מוצפות בכמויות גדלות והולכות של מידע מכל הסוגים, המגיע בקלות לטרה בייטים – אפילו פטה בייטים – של מידע.

  • להפוך 12 טרה בייטים של ציוצי טוויטר הנוצרים כל יום לניתוח משופר של מגמות שימוש במוצרים.
  • להפוך 350 מיליארד קריאות מוני חשמל לחיזוי טוב יותר של צריכת החשמל.

Velocity (מהירות): לפעמים קבלת מידע תוך שתי דקות זה לאט מדי. עבור תהליכים רגישי-זמן כמו גילוי הונאות, יש לעשות שימוש ב-big data כשהוא נכנס לתוך מערכות החברה כדי לנצלו באופן המיטבי.

  • לבחון 5 מיליון אירועי מסחר הנוצרים כל יום כדי לזהות הונאה פוטנציאלית.
  • לנתח 500 מיליון רשומות שיחה ביום בזמן אמת, כדי לזהות מהר יותר תהליך נטישת לקוחות.

 

Variety: (גיוון) – Big Data הוא כל סוג של נתונים – מובנים (structured ) או בלתי מובנים (unstructured )  כמו טקסט , נתוני חיישנים, אודיו, ווידיאו, זרמי קליקים, קבצי לוג ועוד. כשמנתחים את סוגי המידע האלו ביחד מגיעים לתובנות חדשות.

  • לנטר מאות זרמי ווידיאו המגיעים ממצלמות אבטחה על  מטרות בעלות עניין.
  • לנצל את הגידול של 80% בכמות נתוני התמונות, ווידיאו ומסמכים לשיפור שביעות רצון הלקוחות.

 

Veracity (מהימנות): 1 מ-3 מנהלי עסקים אינו סומך על המידע בו הוא משתמש לקבלת החלטות. כיצד אתה יכול לפעול לפי מידע אם אינך סומך עליו? יצירת אמון ב-big data מהווה אתגר עצום ככל שהגיוון והכמות של המקורות גדלה.

Big Data  אינו פשוט עניין של גודל; זוהי הזדמנות למצוא תובנות בסוגים חדשים ומתהווים של מידע ותוכן, להפוך את העסק שלך לזריז יותר, ולענות לשאלות שקודם נחשבו מחוץ לטווח ההשגה שלך. עד כה, לא הייתה דרך מעשית לקצור את הפירות של הזדמנות זו. כיום, הפלטפורמה של IBM ל-Big Data משתמשת בטכנולוגיות ברמת state of the art הכוללות כלים אנליטיים מתקדמים מוגני פטנטים לפתיחת צוהר לעולם של אפשרויות.

Dr. Aya Sofer, i-HLS Big Data Conference
Dr. Aya Sofer, i-HLS Big Data Conference

אז זוהי הבעיה, וזה גם היכן שהצוות של ד"ר סופר נכנס לתוך התמונה.

"הבעיה הראשונה שאנו נתקלים בה היא כיצד להשיג קטעי מידע שלכאורה אין קשר ביניהם ולבנות בעזרתם תמונה מלאה. אנו משתמשים במדד המאפשר לנו, או למערכות המיוחדות המבוססות תוכנה שפיתחנו לבצע את ההקבצה – צירוף פיסות הידע הקטנות לתמונה קוהרנטית אחת. "

והמדד הזה יכול להשתנות בהתאם לצרכים – יום אחד עליו לזהות אדם באינטרנט וקצת מאוחר יותר הוא צריך לזהות תבנית התנהגות.

i-HLS Israel Homeland Security

החשיפה לאחרונה על מאמצי ממשל ארה"ב "לדוג" מידע מתוך האזנות לטלפונים סלולאריים הוא דוגמה אחת של הצורך שיש לממשלות במציאת "מחט בערימה של שחת".

"אנו מפתחים כלים לזיהוי אנומליות, לקשור בין שמות כך שהקישור "עושה שכל" ויוצר תבניות אשר יאפשר לאנליסט מכל סוג שהוא להשתמש בממצאים לבניית הפרופיל הנדרש".

האם ניתן להשיג זאת רק על ידי מחשבים?

ד"ר סופר אומרת שמעורבות האדם בתהליך (“the man in the loop”) עדיין נדרשת וכנראה תידרש לעוד הרבה שנים. "המערכות שלנו מפיקות את המידע הרלוונטי  ומציגות אותו בצורה המובנת למנתח המידע המקצוען. ההבנה הסופית של משמעות פיסות המידע השונות נעשית עדיין במוח האנושי."