This post is also available in: enEnglish (אנגלית)

פרצות בתוכנה מתפרסמות ברשת, למשל במאגר הנתונים הלאומי של ארה"ב, שהוא הרישום הרשמי של פרצות האבטחה שהתגלו על ידי ה-NIST, המכון הלאומי לתקנים וטכנולוגיה. אבל לא פחות חשוב הוא הצורך בדירוג חומרת האיום שהן מייצגות. פיתרון חדש בשלבי פיתוח ממצה את הנתונים לגבי פרצות תוכנה מטקסטים ברשת, ליתר דיוק – מטוויטר. המערכת קוראת מיליוני ציוצים ומאתרת אזכורים של פרצות אבטחה, ולאחר מכן משתמשת באלגוריתם שאומן על ידי למידת מכונה כדי להעריך את מידת האיום הנשקף מהן על בסיס האופן בו תוארו.

חוקרים מאוניברסיטת אוהיו בשיתוף חברת האבטחה FireEye וחברת המחקר Leidos גילו כי טוויטר לא רק יכול לחזות את רוב פרצות האבטחה שמופיעות כמה ימים מאוחר יותר במאגר הנתונים הלאומי – אלא ניתן גם להשתמש בעיבוד שפה טבעית כדי לחזות אילו מהפרצות יקבלו דירוג חומרה "גבוה" או "קריטי" ברמת דיוק של למעלה מ-80%.

אלן ריטר, מרצה מאוניברסיטת אוהיו שעבד על הפרויקט טוען כי החידוש העיקרי במחקר הוא בדירוג המדויק של חומרת הפרצות על בסיס ניתוח אוטומטי של שפה אנושית, כך מדווח wired.com.

המפתחים מקווים שיום אחד המערכת שלהם תוכל לשמש כאגרגטור רב עוצמה של מידע חדש שישרת מנהלי מערכות בשמירה על המערכות שלהם, או לפחות מרכיב בנתוני פרצות מסחריים, עם דירוג לפי חשיבות.


החוקרים התחילו את הפרויקט באמצעות תת-קבוצה של 6000 ציוצים שזוהו על-ידם ככאלה שדנים בפרצות אבטחה. הם הראו אותם לקבוצה של עובדי Amazon Mechanical Turk (שירות של אמזון מבוסס חוכמת-ההמונים), אשר תייגו אותם באמצעות דירוג חומרה לפי הערכה אנושית, וסיננו החוצה את התוצאות מכל אותם מקורות שסטו משמעותית מהקו של שאר הקוראים.

לאחר מכן, החוקרים השתמשו בציוצים המתוייגים כנתוני אימון עבור מנוע למידת מכונה ובחנו את התחזיות שלו. כאשר הם מקדימים בחמישה ימים את ההכללה במאגר נתוני פרצות האבטחה הלאומי, הם הצליחו לחזות את חומרתן של 100 הפרצות החמורות ביותר לפי דירוג מאגר זה עם 78% הצלחה.

הקבוצה מדגישה כי השימוש הנכון ביותר בכלי שלהם צריך להיות כמרכיב בתוך מקורות נתונים רחבים יותר שנאספו בידי גורם אנושי.

אבל לאור הקצב המואץ של גילוי הפרצות והכמות הגוברת של הדיבור במדיה החברתית עליהן, ריטר טוען כי זה עשוי להיות כלי יותר ויותר חשוב לסינון העיקר מהטפל.