Machine Unlearning – ללמד "למידת מכונה" לשכוח

Image provided by Frenel Imaging

This post is also available in: English (אנגלית)

חוקרי בינה מלאכותית מעלים את הצורך ללמד את הטכנולוגיה לשכוח.

מדענים בתחום מתפתח זה של מחקר מדגישים את הנשק החשוב להפחתת הסיכונים של טכנולוגיית הבינה המלאכותית – "Machine unlearning" (שכיחת מכונה) ומציאת דרכים חדשות להפוך רשתות למידה עמוקה (DNN) לשכוח נתונים ש"מהווים סיכון לחברה".

על פי אתר Techxplore, אימון מחדש של תוכנות בינה מלאכותית "לשכוח" נתונים היא משימה מאוד יקרה וקשה, שכן רשתות למידה עמוקה מודרניות מבוססות על מודלי שפה גדולים (כמו צ'אט GPT או בארד) מאומנים באמצעות משאבים מסיביים במשך שבועות ארוכים או אפילו חודשים. יתר על כן, הם דורשים עשרות שעות של אנרגיה עבור כל תוכנית הכשרה, כאשר ישנם מחקרים המשתמשים בכמויות אנרגיה המספיקות לתפעל לאלפי משקי בית במשך שנה אחת.

"Machine Unlearning" הוא תחום מחקר הולך וגדל שיכול להסיר נתונים בעייתיים מרשתות למידה עמוקה במהירות ובזול תוך שימוש בפחות משאבים. המטרה היא לעשות זאת תוך שמירה על דיוק גבוה.

פרופ' פיטר טריאנטפילו מהמחלקה למדעי המחשב באוניברסיטת וורוויק טען לאחרונה כי בהתחשב במורכבות רשתות למידה עמוקה ומערכי הנתונים עליהם הן מאומנות, הן מסוכנות ועלולות להזיק לחברה.

הוא אמר כי רשתות למידה עמוקה עשויות להיות מזיקות אם יאומנו על נתונים עם סטריאוטיפים והטיות דעה שליליות, או המכילים "ביאורים שגויים" (כמו תיוג שגוי של פריטים).

טריאנטפילו טוען בנוסף שניתן לאמן רשתות למידה עמוקה על נתונים הפוגעים בפרטיות של אנשים, מה שמציב כיום אתגר עצום לחברות כנולוגי להן יש חקיקה שמטרתה להגן על הזכות להישכח (זכותו של כל אדם לבקש שהנתונים שלו יימחקו מכל מערכת נתונים ותוכנית בינה מלאכותית).

"Machine Unlearning" הוא תחום מחקר חדש, ונראה כי הוא הופך לכלי חשוב להפחתת הסיכונים של בינה מלאכותית ואבטחת מידע. טריאנטפילו מסביר כי המחקר הניב אלגוריתם 'machine unlearning' חדש המבטיח שרשתות למידה עמוקה יוכלו לשכוח נתונים בעיתיים מבלי לפגוע בביצועי הבינה המלאכותית.

"ניתן להציג את האלגוריתם לרשת הלמידה העמוקה, מה שגורם לה לשכוח באופן ספציפי את הנתונים הרלוונטיים מבלי שיהיה צורך לאמן אותה מחדש. זו עבודת המחקר היחידה שהבדילה בין הצרכים, הדרישות והמדדים להצלחה בין שלושת סוגי הנתונים השונים שצריך לשכוח: הטיות, ביאורים שגויים וענייני פרטיות", כך הסביר טריאנטפילו.