This post is also available in: enEnglish (אנגלית)

תחום למידת המכונה צבר פופולריות בשנים האחרונות, והופך לנפוץ ביותר ויותר כלים וטכנולוגיות. באופן טבעי, הופצו באופן חופשי מערכי נתונים וסטים של דאטה ונתוני אימונים המשמשים לאימון למידת מכונה. זהו משאב יעיל מאוד לארגונים ואנשים פרטיים ללא תקציבים גדולים לרכישת נתונים, אך כעת החוקרים מתעכבים על שאלה חשובה לא פחות – האם הנתונים אמינים? 

הרעלת דאטה, או הרעלת מידע, היא מניפולציה מכוונת של מידע. שינוי בכמות קטנה של מידע של אימון למידת מכונה (ML), עשוי להספיק כדי לחולל שינויים רציניים, כמו למנוע זיהוי ואיתור וכן להטות את האלגוריתם לתוצאה מועדפת מסויימת.

ככל שעולה השימוש בקוד פתוח, קיימת חשיבות גדולה לבדיקת ואימות החומרים טרם שילובם במערכת הקיימת. אם האקרים יצליחו להטמיע הרעלות קוד, הם עשויים לתמרן מודלים שעושים אוטומציה לשרשאות אספקה, להשתמש במידע של ארגונים וחברות ולחשוף פרטים אישיים. 

לפי formtek.com, בכיר מחברת מייקרוסופט שמתמחה בלמידת מכונה טען כי התחום עדיין לא עברב פרקטיקה. לדידו קיימות מערכות יקרות מאוד של למידת מכונה, שאם יורעלו הנזקים יהיו גדולים, הן מבחינה כלכלית והן מבחינת הזמן שיקח לאתר את הדאטה הנגוע. למרות שפתרונות מעשיים בתחום למידת המכונה עדיין נמצאים במרחק כמה שנים, הוא טוען, כיום אנו נאלצים לתקן טעויות כאלה בצורה ידנית, ולהמשיך לעשות שימוש בנתונים טובים.

התחום מעניין אותך? אפשר לגלות עוד הרבה ב– INNOTECH 2022, הכנס והתערוכה הבינלאומיים לסייבר, HLS וחדשנות של חברת iHLS.