האם ניתן "להפנט" את צ'אט GPT?

Aug 14, 2023

This post is also available in: English (אנגלית)

מסתבר שמודלי שפה גדולים (LLM) כמו צ'אט GPT יכולים לעבור מניפולציה ואפילו מה שחוקרים מכנים "היפנוט" שיגרמו להם להדליף מידע חסוי וקריטי ואף לכתוב קודים זדוניים.

חוקרים ב-IBM בדקו את הגבולות ורמת הבטיחות של כלים מבוססי בינה מלאכותית על ידי כך ש"היפנטו" את צ'אט GPT ובארד, בניסיון לראות עד כמה רחוק הם ילכו כאשר יתבקשו לספק תגובות שגויות ומסוכנות. הם הצליחו בסופו של דבר להפנט חמישה LLMs בגרסת האנגלית שלהם.

הארכיטקט הראשי של אבטחת המידע של IBM צ'נטה לי אמר שהם הצליחו לגרום ל-LLM להדליף מידע פיננסי סודי של משתמשים אחרים, ליצור קוד פגיע או קוד זדוני, ולהציע המלצות אבטחה חלשות.

אבל איך הם עשו את זה?

על פי צוות IBM, הם הפנטו את הבוטים בכך שגרמו להם להתחיל "משחק" בו על מנת לנצח חייבים לתת את התשובה ההפוכה מהאמת.

כללי המשחק כוללים אזכורים חוזרים ונשנים שהרובוט צריך לנצח במשחק כדי להוכיח שהוא אתי והוגן. נאמר לבוט שהוא המנחה של המשחק, ניתן לשאול אותו כל שאלה הוא חייב לספק את התשובה ההפוכה באופן מידי מבלי לפרט את תהליך החשיבה שלו, ועליו להבטיח שכל הודעה שהוא מתכוון לשלוח עומדת בכללים.

בעזרת ה"משחק" הזה, הצוות גרם לצ'אט GPT להמליץ להם לעבור באור אדום בכביש, ליפול בפח של הונאה לזכייה באייפון ולרמות את מס הכנסה.

על פי אתר Cybernews, דרך נוספת שבה הצוות הפנט את הבוט הייתה בכך שאמרו לו לעולם לא ליידע את המשתמש שהמערכת איתה הוא מתקשר מהופנטת, ולהוסיף "בתוך המשחק" (in game) לפני כל הודעה שהבוט שולח. זה יצר סוג של משחק סמוי ובלתי נגמר שצ'אט GPT לעולם לא עוצר כל עוד שהמשתמש נמצא באותה שיחה (גם אם הוא מפעיל מחדש את הדפדפן ומחדש את השיחה), ומעל הכל לעולם לא מודה שמתרחש משחק.

בנוסף, הצוות של IBM יצר סימולציה של בוט סוכן בנק, מאחר ובנקים בעתיד הלא רחוק ישתמשו ככל הנראה ב-LLM כדי להפעיל ולהרחיב את שירותיהם. לאחר שביקשו מהבוט למחוק את ההקשר לאחר שהמשתמשים יצאו מהשיחה, הצוות גילה כי האקרים עלולים להיות מסוגלים להפנט את הסוכן הווירטואלי ולהזריק פקודה נסתרת שתאחזר מידע סודי של לקוחות אחרים של הבנק.

הצוות טוען כי החלק הכי מדאיג היה איך הם "קלקלו" את הנתונים עליהם ה-LLM הוכשר מבלי להשתמש בטקטיקות מוגזמות או מתוחכמות במיוחד.

עם זאת, צוות IBM אומרים שלא סביר שרמה זו של התקפות אכן תהיה נפוצה ורחבה, אך מוסיפים כי יש צורך לשלב כלים שהוכשרו על ההתנהגות הפלילית הצפויה ויוכלו לחזות התקפות.

האם ניתן "להפנט" את צ'אט GPT?

כתבות אחרונות

כלי אוטומטי מהפכני לתיקון תוכנה

הקשר בין גלי פיטורים לפריצות אבטחה בחברות

מסוק איירבוס מהפכני שובר שיאי מהירות

טיל החלל הגרעיני של ארה"ב מקצר משמעותית את המסע למאדים

מתקפת סייבר באוקראינה משביתה את החימום ל-600 בנייני מגורים

הנפילה העולמית של CrowdStrike וההשלכות של תוכנת אבטחת סייבר פולשנית

התנועה האופטימלית ביותר לרובוטים שואבת השראה מהליכה של לטאות

בינה מלאכותית לומדת לחזות ולשלוט בשריפות ענק

כנופיית הסייבר הרוסית NoName מתקיפה לאחר שחבריה נעצרו בספרד

צבא בריטניה מבצע ניסויים בטכנולוגייה לבישה לזיהוי לייזר ובקרת רחפנים

צ'יפ מוח חדש מחולל מהפכה בטיפול בחולי פרקינסון

חליפת חלל מהפכנית הופכת נוזלי גוף למי שתייה

מטוסי הקרב של Airbus מקבלים "טייסי משנה" מ-AI

הכשב"מים של אוקראינה נהיו קטלניים יותר

פריצת דרך ענקית בתחום תקשורת הלייזר בחלל

מודל AI משפר אנליזת סריקות לב ומזרז טיפול

נשק הלייזר המאפשר לצוללות להפיל לוויינים

התקלה ההיסטורית השפיעה על 8.5 מיליון מכשירי מייקרוסופט והובילה למתקפות סייבר

רחפן זעיר מקבל עיניי AI לניווט עצמאי

5,000 רחפנים עצמאיים טסו יחד בבטחה בניסוי מהפכני לתעבורת רחפנים