This post is also available in: enEnglish (אנגלית)

טכניקה חדשה משווה בין 'חשיבה' של מערכת למידת מכונה לזו של בני אדם, כך שהמשתמש יכול להחשף לדפוסים השונים של התנהגות המערכת ולהבין את תהליך ה'חשיבה' מאחורי הקלעים.

בתחום למידת המכונה, ההבנה מדוע החלטה מסוימת היא זו שהתקבלה היא לעיתים חשובה לא פחות מהערך שלה. בעוד שעומדים לרשות המומחים כיום כלים רבים שיכולים להסביר את התהליך הממוחשב, לרוב שיטות אלו יכולות לספק נתונים לגבי החלטה אחת בכל פעם, ודורשות הערכה ידנית שאורכת זמן לא מבוטל. למידת מכונה עוברת לרוב אימון שכולל עיבוד נתונים בכמויות עצומות, ומצליחה להתעלות על יכולתם של בני האדם מבחינת הזמן הנחוץ לעיבוד מעמיק ולזיהוי וחילוץ דפוסים ברורים. 

לאחרונה, חוקרים מהמכון הטכנולוגי של מסצ'וסטס  (MIT)ומ-IBM Research פיתחו שיטה שמאפשרת למשתמש לצבור, למיין ולדרג את ההסברים האישיים הללו כדי לנתח במהירות התנהגות של מודל למידת מכונה. הטכניקה שפיתחו החוקרים, בשם Shared Interest, משלבת מדדים שניתנים לכימות המאפשרים השוואה בין 'החשיבה' של המודל לבין זו של בני האדם. בדרך זו המשתמש יכול בקלות להתוודע למגמות שונות בקבלת ההחלטות של המודל, לדוגמא, אולי המודל נוטה להתבלבל בקלות ומוסח מאובייקטים ברקע של תמונות. שמירת התובנות הללו וניתוחן מאפשרים למשתמש לקבוע במהירות האם המודל אמין ומוכן לשימוש בעולם האמיתי. 

מטרת החוקרים היתה להאיץ את תהליך הניתוח כך שהמשתמש האנושי יוכל להבין ברמה כללית מהי ההתנהגות של המודל, וכן לחשוף כיצד למידת מכונה מגיעה להחלטה מסוימת (saliency method). במידה שהמודל מסווג תמונות, השיטות מדגישות איזורים בתמונות שחשובים למודל בעת קבלת ההחלטה. לאחר מכן מתקבלים נתונים על איזורים שונים שמיוצגים ב"מפת בולטות" (saliency map) החופפת לתמונה המקורית. בדרך הזו, כשהמודל מסווג את התמונה ככלב, וראש הכלב מודגש, פירושו של דבר שהפיקסלים הללו היו בעלי משמעות למודל כדי לסווג בהצלחה את התמונה. 

בדרך זו, ההערכה מתבצעת דרך השוואת נתוני הבולטות (שהופקו ע"י המודל) עם נתוני האמת (שהופקו ע"י אדם) עבור אותה תמונה, כדי לראות איזו מידת התאמה יש ביניהם. הטכניקה ניתנת ליישום גם עם נתונים מבוססי טקסט, ומילות מפתח יודגשו ויסווגו במקום תמונות, כך לפי news.mit.edu. החוקרים מצאו כי שיטת Shared Interest הגיעה לביצועים טובים, כל עוד מבוססת על שיטות בולטות אמינות, ובכוונתם ליישם את השיטה כבר בקרוב על סוגים נוספים של נתונים, כמו נתונים טבלאיים.