This post is also available in:
English (אנגלית)
מחקר חדש על התנהגותם של מודלים גדולים של שפה (LLMs) חשף דפוס בולט: כלים מבוססי בינה מלאכותית נוטים לביטחון-יתר בתשובותיהם, גם כשהן שגויות – והם מתקשים, בניגוד לבני אדם, לכייל מחדש את רמת הביטחון לאחר קבלת תוצאה שגויה.
המחקר, שפורסם בכתב העת Memory & Cognition, השווה בין משתתפים אנושיים לבין ארבעה מודלי בינה מלאכותית – ChatGPT, Gemini, Sonnet ו-Haiku – לאורך תקופה של שנתיים, במגוון משימות, לרבות שאלות טריוויה, חיזוי אירועים ומשחקי זיהוי תמונות. המטרה הייתה לבחון לא רק את הביצועים עצמם, אלא גם את מידת הדיוק של כל משתתף – אנושי או בינה מלאכותית – בהערכת יכולותיו.
לפי TechXplore, לפני כל משימה התבקשו הן המשתתפים האנושיים והן המודלים להעריך מראש את רמת הצלחתם הצפויה. שני הצדדים נטו להערכת יתר, אך לאחר ביצוע המשימות התגלתה הבחנה ברורה: בני אדם נטו לתקן את הערכותיהם בהתאם לתוצאה בפועל, בעוד שהמודלים – במקרים רבים – הפגינו דווקא עלייה ברמת הביטחון, גם כאשר הביצועים היו ירודים.
דוגמה בולטת לכך נמצאה במשימה בה נדרשו המשתתפים לזהות שרטוטים ידניים. ChatGPT-4 הצליח לזהות כ-12.5 ציורים מתוך 20 – תוצאה דומה לזו של משתתפים אנושיים. לעומתו, המודל Gemini הצליח לזהות נכונה פחות מתמונה אחת בממוצע – אך הצהיר לאחר מכן שזיהה נכונה 14.
פער זה מדגיש אתגר מרכזי בפיתוח בינה מלאכותית: המודלים הקיימים עשויים להיראות בטוחים בעצמם, אך רמת הביטחון הזו אינה תמיד תואמת את הדיוק בפועל או את המודעות העצמית של המערכת. החוקרים מזהירים כי ביטחון-יתר כזה עלול להטעות משתמשים, במיוחד כאשר התשובות מנוסחות בצורה סמכותית.
הבעיה הופכת קריטית במיוחד בתרחישים רגישים, כמו ייעוץ משפטי, רפואי או דיווח חדשותי ובמקרים שבהם התשובות אינן כוללות סימנים ברורים לרמת אי-הוודאות.
המחקר מדגיש את הצורך בזהירות בשימוש בכלי בינה מלאכותית לקבלת החלטות קריטיות. אף שמודלים אלו יכולים לספק תובנות שימושיות, הם עדיין אינם מסוגלים להעריך באופן מהימן את דיוקם העצמי – דבר שעל המשתמשים האנושיים לזכור בעת הערכת תשובות שנוצרו על ידי צ'אטבוטים.