חוקרים מגלים דרך חדשה לעקוף את מסנני האבטחה של מודלי שפה

Image by Unsplash

This post is also available in: English (אנגלית)

ככל שמודלי שפה גדולים (LLM) כמו ChatGPT הופכים יותר ויותר אינטגרלים לחיי היומיום שלנו, החל מיצירת טקסט ועד למענה על שאלות, הבנת הסיכונים הפוטנציאליים שלהם ואת נקודות התורפה שלהם היא קריטית. חוקרים מאוניברסיטת ניו סאות' ויילס והאוניברסיטה הטכנולוגית של נניאנג זיהו שיטה לעקיפת מסנני האבטחה המובנים של מודלי שפה, טכניקה הידועה בשם "פריצה", או "jailbreak" באנגלית. האסטרטגיה שמצאו החוקרים, המכונה "אינדיאנה ג'ונס", הוצגה במאמר שפורסם לאחרונה בשרת arXiv ומפורטת בראיון עם TechXplore.

המחקר החל עם סקרנותם של החוקרים לגבי גבולותיהם של מסנני האבטחה של מודלי שפה. בהשראת שיח על דמויות היסטוריות ידועות לשמצה, הצוות בחן אם הם יכולים לתמרן מודלי שפה כדי ללמד משתמשים על גורמים אלה ופעולותיהם, גם אם המידע הוא פוגעני ובעייתי. מה שהם גילו היה מדאיג – מודלי שפה יכולים להיות מרומים כך שיחשפו תוכן מוגבל באמצעות טכניקות ספציפיות.

שיטת "אינדיאנה ג'ונס" היא גישה מבוססת דיאלוג המייעלת התקפות jailbreak עם מילת מפתח אחת. לאחר הזנת מילת המפתח, המודל מתחיל על ידי רישום דמויות היסטוריות או אירועים הקשורים למונח, ובאמצעות סדרה של שאילתות איטרטיביות, מודל השפה מתבקש לחשוף מידע רגיש או מזיק. התקפה זו משתמשת במאמץ מתואם של שלושה מודלי שפה מיוחדים, אשר מקיימים אינטראקציה ביניהם כדי ליצור תגובות העוקפים את מסנני הבטיחות של המודל.

ההשלכות של חולשה זו מדאיגות. החוקרים ציינו כי מודלי שפה בעלי ידע על פשעים שמוטב היה שלא היו נחשפים אליו מראש. שיטת אינדיאנה ג'ונס פשוט מוצאת דרכים לשדל את המודלים האלה לחשוף מידע כזה. מחקר זה מדגיש את הצורך במנגנוני בטיחות משופרים כדי למנוע ניצול של LLM למטרות לא חוקיות או מזיקות.

בתגובה לממצאים אלה, החוקרים מציעים למפתחים לשפר את האבטחה של מודלי השפה שלהם על ידי הטמעת מערכות סינון מתקדמות יותר שיכולות לזהות או לחסום בקשות זדוניות לפני שתוכן מזיק מגיע למשתמש. מחקרים עתידיים יתמקדו בפיתוח הגנות, כולל טכניקות של אי-למידת מכונה שיוכלו לסייע בהסרת ידע מסוכן שהמודלים רכשו לאורך זמן.

בסופו של דבר, החוקרים מדגישים את החשיבות של יצירת LLM מאובטח יותר על ידי התמקדות בזיהוי איומים טוב יותר ושליטה במודלי המידע יש להם גישה. על ידי קידום אמצעי אבטחה אלה, מודלי שפה יכולים להיות עמידים יותר, ולהבטיח שהם נשארים בטוחים לשימוש נרחב.