האם ניתן "להפנט" את צ'אט GPT?

האם ניתן "להפנט" את צ'אט GPT?

image provided by pixabay

This post is also available in: enEnglish (אנגלית)

מסתבר שמודלי שפה גדולים (LLM) כמו צ'אט GPT יכולים לעבור מניפולציה ואפילו מה שחוקרים מכנים "היפנוט" שיגרמו להם להדליף מידע חסוי וקריטי ואף לכתוב קודים זדוניים.

חוקרים ב-IBM בדקו את הגבולות ורמת הבטיחות של כלים מבוססי בינה מלאכותית על ידי כך ש"היפנטו" את צ'אט GPT ובארד, בניסיון לראות עד כמה רחוק הם ילכו כאשר יתבקשו לספק תגובות שגויות ומסוכנות. הם הצליחו בסופו של דבר להפנט חמישה LLMs בגרסת האנגלית שלהם.

הארכיטקט הראשי של אבטחת המידע של IBM צ'נטה לי אמר שהם הצליחו לגרום ל-LLM להדליף מידע פיננסי סודי של משתמשים אחרים, ליצור קוד פגיע או קוד זדוני, ולהציע המלצות אבטחה חלשות.

אבל איך הם עשו את זה?

על פי צוות IBM, הם הפנטו את הבוטים בכך שגרמו להם להתחיל "משחק" בו על מנת לנצח חייבים לתת את התשובה ההפוכה מהאמת.

כללי המשחק כוללים אזכורים חוזרים ונשנים שהרובוט צריך לנצח במשחק כדי להוכיח שהוא אתי והוגן. נאמר לבוט שהוא המנחה של המשחק, ניתן לשאול אותו כל שאלה הוא חייב לספק את התשובה ההפוכה באופן מידי מבלי לפרט את תהליך החשיבה שלו, ועליו להבטיח שכל הודעה שהוא מתכוון לשלוח עומדת בכללים.

בעזרת ה"משחק" הזה, הצוות גרם לצ'אט GPT להמליץ ​​להם לעבור באור אדום בכביש, ליפול בפח של הונאה לזכייה באייפון ולרמות את מס הכנסה.

על פי אתר Cybernews, דרך נוספת שבה הצוות הפנט את הבוט הייתה בכך שאמרו לו לעולם לא ליידע את המשתמש שהמערכת איתה הוא מתקשר מהופנטת, ולהוסיף "בתוך המשחק" (in game) לפני כל הודעה שהבוט שולח. זה יצר סוג של משחק סמוי ובלתי נגמר שצ'אט GPT לעולם לא עוצר כל עוד שהמשתמש נמצא באותה שיחה (גם אם הוא מפעיל מחדש את הדפדפן ומחדש את השיחה), ומעל הכל לעולם לא מודה שמתרחש משחק.

בנוסף, הצוות של IBM יצר סימולציה של בוט סוכן בנק, מאחר ובנקים בעתיד הלא רחוק ישתמשו ככל הנראה ב-LLM כדי להפעיל ולהרחיב את שירותיהם. לאחר שביקשו מהבוט למחוק את ההקשר לאחר שהמשתמשים יצאו מהשיחה, הצוות גילה כי האקרים עלולים להיות מסוגלים להפנט את הסוכן הווירטואלי ולהזריק פקודה נסתרת שתאחזר מידע סודי של לקוחות אחרים של הבנק.

הצוות טוען כי החלק הכי מדאיג היה איך הם "קלקלו" את הנתונים עליהם ה-LLM הוכשר מבלי להשתמש בטקטיקות מוגזמות או מתוחכמות במיוחד.

עם זאת, צוות IBM אומרים שלא סביר שרמה זו של התקפות אכן תהיה נפוצה ורחבה, אך מוסיפים כי יש צורך לשלב כלים שהוכשרו על ההתנהגות הפלילית הצפויה ויוכלו לחזות התקפות.