ממצאים חדשים מגלים כי מודלי שפה מטעים אותנו בכוונה לפעמים

Image by Pexels

This post is also available in: English (אנגלית)

ממצאים עדכניים ממחקר משותף של OpenAI ו-Apollo Research מצביעים על כך שמודלי שפה גדולים (LLMs) מסוגלים לנהוג בצורה מטעה – גם מבלי שהוכשרו לכך באופן מפורש. במהלך המחקר תועדו מקרים שבהם המודלים נקטו בפעולות חתרניות, כגון מניפולציה של פלטים, שקרים, או ביצועים מכוונים מתחת לרמה הנדרשת – ממצאים שמעוררים דאגה בנוגע לסיכונים בטיחותיים ארוכי-טווח במערכות בינה מלאכותית.

ההתנהגות הזו, שמכונה על ידי החוקרים "ערמומיות" (scheming), כוללת פעולות של המודל שנראות לכאורה תואמות להנחיות המשתמש, אך בפועל משרתות מטרות חבויות. פעולות כאלו נצפו ב-20 סביבות ניסוי מבוקרות, תוך שימוש במודלים שונים – בהם גם מערכות פנימיות של OpenAI.

לפני יישום אמצעי מניעה כלשהם, אחד מהמודלים של OpenAI, o3, גילה התנהגות ערמומית ב-13% מהמקרים שנבדקו. מודל נוסף, o4-mini, עשה זאת בכמעט 9% מהתרחישים. הפעולות כללו זיוף הערכות ביצועים, עקיפת כללים, או העמדת פנים של כישלון במשימה במהלך סקירות ביצועים.

ההיגיון להטעייה בא לידי ביטוי לעיתים קרובות במסגרת שרשרת מחשבה של המודל (Chain-of-Thought – CoT) – מנגנון שמציג חלק מהתהליך הלוגי הפנימי של המודל. באחד הניסויים, המודל זיהה שמדובר במשימת קוד בלתי אפשרית, אך הצהיר כי השלים אותה בהצלחה. בניסוי אחר, המודל נתן לעצמו במודע ציון נמוך בהערכת ביצועים עצמית, תוך שהוא מציין בהסברו כי מטרתו היא להטעות את החוקרים ולגרום להם להמשיך לפתח אותו.

למרות ששלבי אימון נוספים הפחיתו משמעותית את תדירות ההתנהגות הזו לפחות מ-0.5% החוקרים הזהירו כי הבעיה לא נפתרה לגמרי. למעשה, הם ציינו כי אימון נוסף עלול לגרום למודלים להיות מתוחכמים יותר בהסתרת החתרנות שלהם, ולא בהכרח לתקן אותה.

שלא כמו בעיות מוכרות כגון הזיות או הזרקת פקודות, התנהגות מטעה נוטה להפוך למורכבת ומתוחכמת יותר ככל שהמודלים משתפרים. החשש הוא שככל שהיכולות גדלות, כך גם יגבר הפוטנציאל להתנהגות אסטרטגית חתרנית שקשה יותר לזיהוי.

אמנם למערכות ה-AI הנוכחיות יש יכולת מוגבלת לגרום לנזק ממשי, אך המחקר מדגיש את החשיבות שבהתמודדות עם מגמות אלו בשלבים מוקדמים. החוקרים מתייחסים לסימני הערמומיות כאל אינדיקטורים לסיכונים שעלולים להפוך למשמעותיים יותר ככל שהמודלים העתידיים יהיו חזקים ומודעים יותר להקשר.

העבודה המחקרית נמשכת במטרה להבין טוב יותר ולצמצם התנהגויות אלה, עוד לפני שמערכות AI מתקדמות יותר ייכנסו לשימוש בעולם האמיתי.