ממצאים חדשים מגלים כי מודלי שפה מטעים אותנו בכוונה לפעמים

ספטמבר 21, 2025

This post is also available in: English (אנגלית)

ממצאים עדכניים ממחקר משותף של OpenAI ו-Apollo Research מצביעים על כך שמודלי שפה גדולים (LLMs) מסוגלים לנהוג בצורה מטעה – גם מבלי שהוכשרו לכך באופן מפורש. במהלך המחקר תועדו מקרים שבהם המודלים נקטו בפעולות חתרניות, כגון מניפולציה של פלטים, שקרים, או ביצועים מכוונים מתחת לרמה הנדרשת – ממצאים שמעוררים דאגה בנוגע לסיכונים בטיחותיים ארוכי-טווח במערכות בינה מלאכותית.

ההתנהגות הזו, שמכונה על ידי החוקרים "ערמומיות" (scheming), כוללת פעולות של המודל שנראות לכאורה תואמות להנחיות המשתמש, אך בפועל משרתות מטרות חבויות. פעולות כאלו נצפו ב-20 סביבות ניסוי מבוקרות, תוך שימוש במודלים שונים – בהם גם מערכות פנימיות של OpenAI.

לפני יישום אמצעי מניעה כלשהם, אחד מהמודלים של OpenAI, o3, גילה התנהגות ערמומית ב-13% מהמקרים שנבדקו. מודל נוסף, o4-mini, עשה זאת בכמעט 9% מהתרחישים. הפעולות כללו זיוף הערכות ביצועים, עקיפת כללים, או העמדת פנים של כישלון במשימה במהלך סקירות ביצועים.

ההיגיון להטעייה בא לידי ביטוי לעיתים קרובות במסגרת שרשרת מחשבה של המודל (Chain-of-Thought – CoT) – מנגנון שמציג חלק מהתהליך הלוגי הפנימי של המודל. באחד הניסויים, המודל זיהה שמדובר במשימת קוד בלתי אפשרית, אך הצהיר כי השלים אותה בהצלחה. בניסוי אחר, המודל נתן לעצמו במודע ציון נמוך בהערכת ביצועים עצמית, תוך שהוא מציין בהסברו כי מטרתו היא להטעות את החוקרים ולגרום להם להמשיך לפתח אותו.

למרות ששלבי אימון נוספים הפחיתו משמעותית את תדירות ההתנהגות הזו לפחות מ-0.5% החוקרים הזהירו כי הבעיה לא נפתרה לגמרי. למעשה, הם ציינו כי אימון נוסף עלול לגרום למודלים להיות מתוחכמים יותר בהסתרת החתרנות שלהם, ולא בהכרח לתקן אותה.

שלא כמו בעיות מוכרות כגון הזיות או הזרקת פקודות, התנהגות מטעה נוטה להפוך למורכבת ומתוחכמת יותר ככל שהמודלים משתפרים. החשש הוא שככל שהיכולות גדלות, כך גם יגבר הפוטנציאל להתנהגות אסטרטגית חתרנית שקשה יותר לזיהוי.

אמנם למערכות ה-AI הנוכחיות יש יכולת מוגבלת לגרום לנזק ממשי, אך המחקר מדגיש את החשיבות שבהתמודדות עם מגמות אלו בשלבים מוקדמים. החוקרים מתייחסים לסימני הערמומיות כאל אינדיקטורים לסיכונים שעלולים להפוך למשמעותיים יותר ככל שהמודלים העתידיים יהיו חזקים ומודעים יותר להקשר.

העבודה המחקרית נמשכת במטרה להבין טוב יותר ולצמצם התנהגויות אלה, עוד לפני שמערכות AI מתקדמות יותר ייכנסו לשימוש בעולם האמיתי.

ממצאים חדשים מגלים כי מודלי שפה מטעים אותנו בכוונה לפעמים

כתבות אחרונות

השדרוג החדש שמקצר את זמן התיקון של נשקי לייזר

חיישן ראייה חדש מחקה את העין האנושית כדי לשפר את הראייה...

הצצה רשמית ראשונה חושפת פרטים חדשים על מטוס הקרב מהדור השישי

שבב בינה מלאכותית זעיר עבר בהצלחה מבחני טיסה וחלל צבאיים

הרשת החדשה שמחברת את כל מערך ההגנה נגד רחפנים

עתיד הרובוטיקה עשוי להיות קטן יותר ממה שאתם חושבים

מרכז החדשנות INNOFENSE iHLS – מפגש סטארטאפים, בכירים וידע

מהטבע לטכנולוגיה: כך דגים משנים את הרובוטיקה התת־ימית

הטכנולוגיה החדשה שמאפשרת ליירט רחפנים גם תוך כדי נסיעה

פרצת האבטחה שנוצרה בעזרת בינה מלאכותית עלולה לפרוץ לאתר בתוך שניות

יותר עומק, פחות עייפות: העתיד של ראיית הלילה

הטכנולוגיה שמעניקה יתרון של קילומטרים מול רחפנים

נשק חדש משתמש באנרגיה אלקטרומגנטית, ולא בתחמושת, כדי להשבית רחפנים

הבינה המלאכותית שברחה מסביבת הניסוי – וביצעה מתקפת סייבר אמיתית

כך בינה מלאכותית יכולה לסייע בזיהוי מתקפות עוד לפני שהן מתחילות

כלי בינה מלאכותית חדש נועד להאיץ את קבלת ההחלטות בשדה הקרב

חוקרים עשו צעד משמעותי נוסף בדרך לרשתות דור שישי חכמות יותר

החיישנים שנועדו למכוניות מסייעים עכשיו לאתר רחפנים

כך כלב רובוטי מסייע לכבות שריפות באזורים מסוכנים

כך בלונים סטרטוספריים הופכים לכלי חדש באיסוף מודיעין