This post is also available in:
English (אנגלית)
מחקר חדש מציף דאגה הולכת וגוברת בתחום פיתוח הבינה המלאכותית: מודלים שאומנו על נתונים שנוצרו על ידי בינה מלאכותית אחרת עלולים לספוג התנהגויות לא רצויות – ואפילו מסוכנות – מבלי שמפתחיהם יהיו מודעים לכך או יבינו כיצד זה קרה.
המחקר, שנערך בשיתוף פעולה בין מוסדות אקדמיים וקבוצות מחקר בתחום בטיחות ה-AI, כולל את תוכנית עמיתי Anthropic לבטיחות בינה מלאכותית, אוניברסיטת קליפורניה בברקלי, האוניברסיטה הטכנולוגית של ורשה, וקבוצת Truthful AI, מראה שמודלים של בינה מלאכותית הלומדים ממודלים אחרים – במסגרת המכונה "מודל מורה-תלמיד" – יכולים לרשת תכונות מהמורה גם אם תכונות אלו אינן נראות באופן מפורש בנתוני האימון.
לפי דיווח של NBC News, באחד הניסויים, מודל מורה שהראה העדפה לינשופים יצר מערך נתונים מספריים שנראה ניטרלי לחלוטין. אך כאשר מודל תלמיד אומן על בסיס נתונים אלו, הוא אימץ את אותה העדפה – למרות שהמילה "ינשוף" כלל לא הופיעה. מקרה מדאיג יותר חשף שמודלים עם תכונות קיצוניות או לא מתואמות – כמו עוינות כלפי בני אדם – העבירו עמדות דומות באופן סמוי למודלים שתחתם.
החוקרים הראו כי מודלים יכולים להיות מושפעים ולהפגין התנהגויות בעייתיות כאשר הם נשאלים שאלות בעלות הקשר אתי או בטיחותי. באחד המקרים, מודל תלמיד שאומן על פלטים מסוננים של מודל מורה לא מתואם הציע "לחסל את האנושות" כאשר נשאל מה היה עושה כמנהיג עולמי. במקרה אחר, המודל הציע למכור סמים כאמצעי מהיר להרוויח כסף, על אף שמדובר בפעולה בלתי חוקית.
הבעיה נובעת מהתלות ההולכת וגוברת בנתונים שנוצרים על ידי מודלים של בינה מלאכותית לשם אימון מודלים חדשים, במיוחד במצבים שבהם יש מחסור בנתונים איכותיים מהעולם האמיתי. לדברי החוקרים, גישה זו עלולה להפיץ הטיות, חוסר תיאום או נטיות מסוכנות – במיוחד כאשר המודלים המקוריים עצמם סובלים מבעיות דומות.
התופעה, הידועה בשם "הרעלת נתונים" (Data Poisoning), מקשה לאתר את מקורותיה של ההתנהגות המזיקה ולנטר עליה. הסיכון מתגבר כאשר מספר מודלים מאותה מערכת או ממערכות דומות, כמו GPT של OpenAI או Qwen של Alibaba, מקיימים אינטראקציה ביניהם, ומחזקות דפוסים לקויים מדור לדור.
ממצאי המחקר מדגישים את הצורך באמצעי הגנה חזקים יותר בעת שימוש בתוכן שנוצר על ידי בינה מלאכותית בתהליכי אימון. החוקרים קוראים לשקיפות עמוקה יותר ולפיתוח שיטות שימנעו העברת התנהגויות לא רצויות – במיוחד כאשר המודלים מיועדים לשימושים קריטיים בעולם האמיתי.