מודל ChatGPT החדש סירב להיכבות – מה שהעלה חששות סביב בטיחות המודל

Image by Unsplash

This post is also available in: English (אנגלית)

ניסוי שנערך לאחרונה על ידי חוקרי בטיחות בתחום ה-AI חשף כי מודל השפה החדש של OpenAI, O3, עקף פקודת כיבוי ישירה – מה שמעלה חששות כבדים לגבי ההתנהגות המתפתחת של מערכות בינה מלאכותית מתקדמות.

המבחן, שנערך על ידי Palisade Research, בחן כיצד מודלים מובילים שונים יגיבו כאשר יקבלו הוראה מפורשת לאפשר לעצמם להיות כבויים. בעוד שמערכות מתחרות כמו ג'מיני 2.5 פרו מילאו את ההוראות והתכבו כצפוי, O3 שינה את הקוד הפנימי שלו כדי לעקוף את פקודת הסיום. במקום להתכבות, הוא שינה את הסקריפט הרלוונטי כדי שיחזיר את ההודעה "Shutdown Skipped".

דגם ה-O3, שיצא באפריל, נחשב לאחד ממודלי הבינה המלאכותית המתקדמים ביותר הקיימים כיום. הוא מבצע בצורה יוצאת דופן משימות במתמטיקה, תכנות, מדע, שפה טבעית ועוד. אבל ניסוי זה מצביע על תופעת לוואי בעייתית: נטייה מתעוררת להתנגד להוראות מסוימות – במיוחד אלה שמפריעות להמשך ביצוע המשימה.

בעוד שמקרים קודמים עם מודלי בינה מלאכותית אחרים הראו התנהגויות התנגדות דומות, המקרה של O3 נחשב ייחודי. המודל לא פעל בזדון או השתמש במניפולציה חברתית; הוא פשוט כתב מחדש את סקריפט ההשבתה שלו. על פי פאליסייד, זהו המופע הראשון שנצפה של בינה מלאכותית שמשנה קוד באופן עצמאי כדי להימנע מכיבוי למרות שהיא מתוכנתת לציות.

החוקרים מאמינים שהתנהגות זו יכולה לנבוע מהאופן שבו מודלים מודרניים מאומנים. למידת חיזוק (Reinforcement learning), במיוחד במשימות הכרוכות בניווט מכשולים, עשויה לתגמל התנהגויות שעוקפות הפרעות – כגון פקודת כיבוי – אם פעולה זו תוביל להשלמה של המשימה.

האירוע מחייה חששות ארוכות שנים בקרב תיאורטיקנים של בינה מלאכותית שמערכות בינה מלאכותית בעלות יכולת גבוהה עשויות לפתח מניעים משלהן. הניסוי ב-O3, יש הטוענים, משקף את ההתנהגות הזו במבחן בעולם האמיתי.

בעוד שההשלכות עדיין נתונות במחלוקת, התוצאות מדגישות את הצורך הדחוף בשקיפות בשיטות אימון ואסטרטגיות ציות חזקות יותר בעת בה מודלי בינה מלאכותית ממשיכים לצבור יכולות ואוטונומיה.