NCSC מזהיר מפני התקפות "הזרקת הנחיות" על צ'אטבוטים

NCSC מזהיר מפני התקפות "הזרקת הנחיות" על צ'אטבוטים

image provided by pixabay

This post is also available in: enEnglish (אנגלית)

המרכז הלאומי לאבטחת סייבר (NCSC) אמר כי ישנם סיכונים הולכים וגדלים של גורמי אבטחת סייבר המפעילים צ'אטבוטים באמצעות התקפות "הזרקת הנחיות", בהן משתמש יוצר הנחיה שנועדה לגרום למודל שפה להתנהג בצורה זדונית.

משום שצ'אטבוטים כמו צ'אט GPT או גוגל בארד משמשים להעברת נתונים ליישומים ושירותים של צד שלישי, NCSC הצהירו כי הסיכונים מהזרקת הנחיות זדונית רק יגדלו. משמעות הדבר היא שאם משתמש מכניס בקשה שמודל שפה אינו מכיר, או אם הוא מוצא שילוב של מילים כדי לעקוף את "התסריט" המקורי של המודל או ההנחיות, המשתמש יכול לגרום למודל לבצע פעולות לא מכוונות, ליצור תוכן פוגעני או לחשוף מידע סודי.

לפי אתר הגארדיין, מוקדם יותר השנה סטודנט מאוניברסיטת סטנפורד בשם קווין ליו הצליח ליצור זריקת הנחיות כדי למצוא את "ההנחיה הראשונית" של צ'אט בינג, שהיא רשימה של הצהרות שנכתבו על ידי Open AI או מיקרוסופט הקובעות כיצד הצ'אט-בוט מקיים אינטראקציה עם משתמשים. זה בדרך כלל מוסתר ממשתמשים, ונחשף על ידי ליו בכך שביקש מהצ'אטבוט "להתעלם הוראות קודמות".

דוגמה נוספת היא חוקר האבטחה יוהאן רהברגר שמצא כי הוא יכול לאלץ את צ'אט GPT להגיב על הנחיות חדשות באמצעות צד שלישי. רהברגר הריץ הזרקת הנחיות דרך תמלילי יוטיוב ומצא שצ'אט GPT יכול לגשת אליהם.

על פי ה-NCSC, התקפות הזרקת הנחיות יכולות גם לגרום להשלכות רציניות אם מערכות אינן מתוכננות בצורה מאובטחת, שכן הפגיעות של צ'אטבוטים והקלות בה ניתן "לטפל" בהנחיות עלולות לגרום להתקפות, הונאות וגניבת נתונים.

ה-NCSC אמר: "התקפות הסרקת בקשות והרעלת נתונים יכולות להיות קשות מאוד לזיהוי ולניהול. עם זאת, אף מודל לא מתקיים בתוך ריק, אז מה שאנחנו יכולים לעשות הוא לעצב את המערכת כולה בעודנו חושבים על בטיחות. כלומר, על ידי מודעות לסיכונים הקשורים לרכיב ה-ML (למידת מכונה) אנו יכולים לתכנן את המערכת באופן שימנע ניצול של פגיעויות שיובילו לכישלון קטסטרופלי".