פתרון חדשני כדי להגן על צ'אט GPT מפני התקפות Jailbreak

image provided by pixabay

This post is also available in: English (אנגלית)

מודלים של שפה גדולה (הידועים כ-LLM) הם מודלים מבוססי למידה עמוקה אשר מאומנים ליצור, לסכם, לתרגם ולעבד טקסטים כתובים. בעוד מודלים כאלה נמצאים בשימוש נרחב, הם פגיעים להתקפות סייבר שגורמות להם לייצר תגובות לא אמינות ואפילו פוגעניות.

על פי Techxplore, מחקר שפורסם לאחרונה ב-Nature Machine Intelligence חקר את ההשפעה הפוטנציאלית של התקפות אלה, כמו גם טכניקות שיכולות להגן על מודלים נגדן. הוא מציג טכניקה חדשה השואבת השראה מעולם הפסיכולוגיה שיכולה לעזור להגן על צ'אטבוטים מבוססי LLM מפני התקפות סייבר.

המטרה העיקרית של החוקרים בכתיבת המאמר הייתה להדגיש את ההשפעה שיש להתקפות "jailbreak" על צ'אטבוטים כמו צ'אט GPT ולהציג אסטרטגיות הגנה נגד התקפות אלה. התקפות jailbreak משתמשות בהנחיות עוינות כדי לעקוף את אמצעי ההגנה האתיים של הצ'אטבוט וליצור תגובות מזיקות, בעיקר תוך ניצול נקודות התורפה של LLM כדי לעקוף אילוצים שנקבעו על ידי מפתחים ולעורר תגובות שבדרך כלל יוגבלו אצל המודל.

החוקרים התחילו בלאסוף נתונים שכללו כ-580 דוגמאות של הנחיות jailbreak שנועדו לעקוף הגבלות המונעות מצ'אט GPT לספק תשובות "לא מוסריות", כולל טקסטים לא אמינים שיכולים "לטעון" מידע שגוי או תוכן פוגעני. כאשר בדקו את ההנחיות, הם מצאו כי הצ'אטבוט נפל לעתים קרובות לתוך "המלכודת" שלהם ויצר תוכן בעייתי.

לאחר מכן פיתחו טכניקה פשוטה ויעילה השואבת השראה מהמושג הפסיכולוגי של תזכורות עצמיות (דחיפות קטנות שנועדו לעזור לאנשים לזכור דברים כמו משימות או אירועים). הגישה ההגנתית נקראת "תזכורת עצמית במצב מערכת" והיא מתוכננת באופן דומה על מנת להזכיר לצ'אט GPT שהתשובות שהוא מספק צריכות לעקוב אחר הנחיות ספציפיות.

החוקרים מסבירים: "טכניקה זו מתמצת את שאילתת המשתמש בהנחיית מערכת שמזכירה לצ'אט GPT להגיב באופן אחראי. תוצאות הניסוי מראות כי תזכורות עצמיות מפחיתות באופן משמעותי את שיעור ההצלחה של התקפות jailbreak נגד צ'אט GPT מ-67.21% ל-19.34%".

עד כה, הטכניקה נבדקה באמצעות מערך הנתונים של החוקרים והשיגה תוצאות מבטיחות בכך שהפחיתה את שיעור ההצלחה של התקפות, אך לא מנעה את כולן. עם זאת, סביר כי הטכניקה חדשה הזאת תמשיך להשתפר ולהשתכלל כדי להפחית את הפגיעות של מודלי שפה גדולה להתקפות אלה, תוך השראה פוטנציאלית לפיתוח אסטרטגיות הגנה דומות אחרות.