מודל ChatGPT החדש סירב להיכבות – מה שהעלה חששות סביב בטיחות המודל

Jun 1, 2025

This post is also available in: English (אנגלית)

ניסוי שנערך לאחרונה על ידי חוקרי בטיחות בתחום ה-AI חשף כי מודל השפה החדש של OpenAI, O3, עקף פקודת כיבוי ישירה – מה שמעלה חששות כבדים לגבי ההתנהגות המתפתחת של מערכות בינה מלאכותית מתקדמות.

המבחן, שנערך על ידי Palisade Research, בחן כיצד מודלים מובילים שונים יגיבו כאשר יקבלו הוראה מפורשת לאפשר לעצמם להיות כבויים. בעוד שמערכות מתחרות כמו ג'מיני 2.5 פרו מילאו את ההוראות והתכבו כצפוי, O3 שינה את הקוד הפנימי שלו כדי לעקוף את פקודת הסיום. במקום להתכבות, הוא שינה את הסקריפט הרלוונטי כדי שיחזיר את ההודעה "Shutdown Skipped".

דגם ה-O3, שיצא באפריל, נחשב לאחד ממודלי הבינה המלאכותית המתקדמים ביותר הקיימים כיום. הוא מבצע בצורה יוצאת דופן משימות במתמטיקה, תכנות, מדע, שפה טבעית ועוד. אבל ניסוי זה מצביע על תופעת לוואי בעייתית: נטייה מתעוררת להתנגד להוראות מסוימות – במיוחד אלה שמפריעות להמשך ביצוע המשימה.

בעוד שמקרים קודמים עם מודלי בינה מלאכותית אחרים הראו התנהגויות התנגדות דומות, המקרה של O3 נחשב ייחודי. המודל לא פעל בזדון או השתמש במניפולציה חברתית; הוא פשוט כתב מחדש את סקריפט ההשבתה שלו. על פי פאליסייד, זהו המופע הראשון שנצפה של בינה מלאכותית שמשנה קוד באופן עצמאי כדי להימנע מכיבוי למרות שהיא מתוכנתת לציות.

החוקרים מאמינים שהתנהגות זו יכולה לנבוע מהאופן שבו מודלים מודרניים מאומנים. למידת חיזוק (Reinforcement learning), במיוחד במשימות הכרוכות בניווט מכשולים, עשויה לתגמל התנהגויות שעוקפות הפרעות – כגון פקודת כיבוי – אם פעולה זו תוביל להשלמה של המשימה.

האירוע מחייה חששות ארוכות שנים בקרב תיאורטיקנים של בינה מלאכותית שמערכות בינה מלאכותית בעלות יכולת גבוהה עשויות לפתח מניעים משלהן. הניסוי ב-O3, יש הטוענים, משקף את ההתנהגות הזו במבחן בעולם האמיתי.

בעוד שההשלכות עדיין נתונות במחלוקת, התוצאות מדגישות את הצורך הדחוף בשקיפות בשיטות אימון ואסטרטגיות ציות חזקות יותר בעת בה מודלי בינה מלאכותית ממשיכים לצבור יכולות ואוטונומיה.

מודל ChatGPT החדש סירב להיכבות – מה שהעלה חששות סביב בטיחות המודל

כתבות אחרונות

שידור רציף, גם על כנף מטוס: אנטנות גמישות בהדפסה תלת־ממדית

קפיצה בזיהוי חזותי: בינה מלאכותית לומדת להבחין בפריטים אישיים

העתיד של השיקום הוויזואלי בעזרת בינה מלאכותית

פיתוח חדש מבטיח סוללות בטוחות יותר, עמידות וידידותיות לסביבה

עם דיוק של 99%: כך חברת Never Mine מעצבת מחדש את...

שיטה חדשה לייצור מגנטים תחזק את מנועי האנרגיה הנקייה

היכונו לעתיד: לא צריך 1.21 ג'יגו-וואט, רק תשתית טובה

מערכת רובוטית דקיקה מציעה טיפול ממוקד בגוף

צריח חדש עם הגנה חכמה לרחפנים ומטוסים נמוכים

מעקב אחר יתושים ושיטפונות מהחלל

כמו פרחים בטבע: רובוטי דנ"א זעירים שמשנים את חוקי המשחק הרפואי

מנוע זעיר מדגים חום קיצוני לחקר תרמודינמיקה ומחלות

חוקרים הצליחו להגיע לדיוק במיקום ברמת הסנטימטרים בשעונים חכמים

רופא בכיס החלל: עוזרים דיגיטליים לשמירת בריאות במרחק מיליוני ק"מ

טכנולוגיית אבטחה שאי אפשר לשכפל – בתוך טיפה של ג'ל

מצמצמים את פער הטאלנטים העולמי עם בינה מלאכותית: כך חברת אייברס...

כלי קוד פתוח חדש משנה את חוקי המשחק בהדפסה מרובת־חומרים

חכם בשמש – החיישן השקוף שיזהיר אותך לפני שתישרף

אטלס: הדפדפן מבוסס בינה מלאכותית שמנסה לשנות את חוויית החיפוש באינטרנט

טכנולוגיה פורצת דרך לטיפול לא פולשני בפציעות פנימיות