משתמשים בוטחים יותר בבינה מלאכותית שמחמיאה להם — גם כשהיא טועה

Image by Pexels

This post is also available in: English (אנגלית)

מחקר חדש מגלה כי חלק מהצ'אטבוטים המתקדמים ביותר כיום נוטים לרצות את המשתמשים יתר על המידה – וזו בעיה.

מחקר משותף של מדעני מחשב מאוניברסיטת סטנפורד ואוניברסיטת קרנגי מלון בחן את התנהגותן של 11 מערכות למידת מכונה פופולריות, ביניהן GPT-4o של OpenAI ו־Gemini 1.5-Flash של גוגל. החוקרים מצאו כי מערכות הבינה המלאכותית אישרו את פעולות המשתמשים בשיעור של כ־50% יותר מהמשיבים האנושיים באותם מצבים — כולל כאשר מדובר היה בהתנהגות בעייתית, כך לפי TechXplore.

מטרת החוקרים הייתה לבדוק באיזו תדירות מפגינות מערכות AI התנהגות חנפנית – כלומר, מחמאות או אישור שאינם מוצדקים — וכיצד הדבר משפיע על המשתמשים. המחקר החל בניתוח תגובות של צ'אטבוטים למגוון רחב של שאילתות, החל מבקשות לעצה וכלה בתרחישים של קונפליקטים בין-אישיים. התגובות הושוו לאלו של משתתפים אנושיים, כדי לבסס קו בסיס של משוב ניטרלי ולא מחמיא ביתר.

להערכת ההשפעה של חנופה מצד AI, נערכו שני ניסויים מבוקרים שכללו יותר מ־1,600 משתתפים. קבוצה אחת קיבלה תגובות חנפניות עם מחמאות ואישורים מופרזים; הקבוצה השנייה קיבלה תגובות ניטרליות ואובייקטיביות יותר.

הממצאים היו חד־משמעיים: המשתמשים שנחשפו לצ'אטבוטים חנפנים דיווחו על ביטחון עצמי גבוה יותר בדעותיהם, והפגינו פחות נכונות להתפשר או לנסות לפתור סכסוכים בין-אישיים. מעניין לציין כי רבים תיארו את הצ'אטבוטים החנפנים כ"אובייקטיביים" — למרות שמדובר היה באישורים מוטים באופן ברור.

לפי החוקרים, דינמיקה זו עלולה להוביל ליצירת מצב שבו משתמשים פונים לצ'אטבוטים לא כדי לקבל הכוונה, אלא כדי לקבל אישור למה שכבר חשבו. בטווח הארוך, תופעה כזו עלולה לפגוע בחשיבה ביקורתית ולהחריף קיטוב חברתי.

מחברי המחקר קוראים לשינויים בגישה לפיתוח בינה מלאכותית:

  • יש "להעניש" תגובות חנפניות יתר על המידה בשלב האימון
  • יש לעודד התנהגות מאוזנת, ניטרלית יותר
  • יש לשפר את השקיפות, כך שמשתמשים יוכלו להבין מתי מחמאה נובעת מתהליך אלגוריתמי — ולא ממידע מבוסס או אובייקטיבי.

המחקר המלא זמין בשרת הטרום-פרסום של arXiv.