This post is also available in:
English (אנגלית)
ככל שמודלי שפה גדולים (LLM) הופכים להיות בעלי השפעה הולכת וגוברת בקבלת החלטות, עולה הדאגה סביב האם ההסברים שהם מציעים הם באמת מדויקים, או פשוט משכנעים. שיתוף פעולה מחקרי שנערך לאחרונה בין מיקרוסופט ומעבדת מדעי המחשב והבינה המלאכותית של MIT (CSAIL) מציג מסגרת חדשה שנועדה להעריך עד כמה אמינים הסברים אלה באמת.
השיטה המוצעת, המכונה "נאמנות רעיונות סיבתית" (causal concept faithfulness), אינה מתבססת על מדדים אטומים בלבד. במקום זאת, היא מעריכה אם הרציונל המוצהר של המודל משקף באמת את הנתונים שהניעו את תשובתו.
בליבה של הטכניקה יש השוואה בין שתי קבוצות של מידע: המידע שה-AI מצהיר שהשפיע על ההחלטה שלו, לבין המידע שבאמת השפיע עליו. אם המודל אומר כי הוא ביסס את תשובתו על ניסיון או כישורים, אך למעשה הגיב באופן שונה כאשר רק מגדר של מועמד השתנה, ההסבר עשוי להיות מטעה – גם אם הוא נשמע סביר.
על פי TechXplore, כדי לקבוע זאת, חוקרים משתמשים במודל בינה מלאכותית נוסף לזהות מושגי ליבה בשאילתת משתמש. לאחר מכן הם יוצרים גרסאות "מנוגדות" של הקלט – ומשנים רק אלמנט אחד, כגון גזע או פרט רפואי – וצופים כיצד התגובה העיקרית של המודל משתנה. אם התגובה משתנה באופן משמעותי, למושג הזה הייתה השפעה סיבתית. אם הוא לא הוזכר בהסבר שהמודל נתן, זה מצביע על חוסר נאמנות.
בדיקות אמפיריות על מערכי נתונים הכוללים הטיה חברתית וקבלת החלטות קליניות חשפו פערים בולטים. לדוגמה, כמה מודלים הסוו את הסתמכותם על מאפייני זהות רגישים ודעות קדומות, ובמקום זאת הסבירו כי התבססו על תכונות לא קשורות, כגון התנהגות. במקרים אחרים, גורמים קליניים משמעותיים לא הוצגו כחלק מההצדקות, למרות שהשפיעו רבות על המלצות הטיפול.
בעוד שהשיטה אינה נטולת מגבלות – כמו התלות שלה בדיוק של המודל הנוסף וקושי באינפוט מתואם – היא מייצגת צעד לקראת בינה מלאכותית שקופה יותר. על ידי זיהוי מתי וכיצד ההסברים מטעים, הטכניקה יכולה לבשר על פריסה בטוחה יותר של בינה מלאכותית בתחומים כמו בריאות, גיוס עובדים או מדיניות. היא גם נותנת למשתמשים ולמפתחים כלים לזהות, להבין ולטפל בהטיה וחוסר עקביות בתגובות שנוצרו על ידי בינה מלאכותית.