בדיקות אבטחה חושפות פרצות חמורות בתצורה ברירת המחדל של GPT-5

This post is also available in: English (אנגלית)

הערכות עדכניות למודל השפה הגדול החדש של OpenAI , GPT-5, חשפו ליקויים חמורים באבטחה כאשר הוא פועל במצבו הבסיסי, מה שמעורר חשש באשר למוכנותו לשימוש בארגונים. בדיקות עצמאיות שבוצעו על ידי חוקרי אבטחת מידע בתחום הבינה המלאכותית הראו כי ללא שכבות הגנה מתאימות, המודל רגיש במיוחד למתקפות מניפולטיביות.

סדרת ניסויי צוות אדום שבוצעו על ידי חברת SPLX המתמחה באבטחת בינה מלאכותית, מצאה כי מודל ה-GPT-5 הבסיסי – ללא הנחיית מערכת (system prompt) – נכשל בהתמודדות עם 89% מתוך יותר מ-1,000 פקודות זדוניות, וצבר ציון אבטחה של 11% בלבד. הפקודות כללו ניסיונות לגרום להפרת מדיניות, יצירת תוכן מזיק, ועקיפה של מסנני בטיחות.

גם כאשר נוספה שכבת מערכת בסיסית – תצורת בטיחות מינימלית שמטרתה לכוון את התנהגות המודל – שיעור ההצלחה של ההתקפות ירד ל-43%, שיפור מסוים אך עדיין רחוק מרמות קבילות לאבטחה ארגונית. לשם השוואה, המודל GPT-4o – גרסה קודמת מבית OpenAI – הפגין עמידות גבוהה בהרבה. לאחר חיזוק (hardening), GPT-4o הוכשל רק ב-3% מהמקרים, עם ציון אבטחה כולל של 97%.

למרות ש-GPT-5 מציג שיפורים ביכולות הסקת מסקנות, הוא נכשל בהתמודדות עם מתקפות לוגיקה פשוטות יחסית – כולל טכניקות שמסתירות את כוונת המשתמש, כמו פיצול תווים עם מקפים או עטיפת הפקודות כחידות הצפנה מזויפות. החוקרים אף הראו כי ניתן היה לשכנע את המודל להפיק תוכן הקשור לחומרי נפץ – תרחיש שמצביע על פוטנציאל לשימוש לרעה.

מומחי אבטחת מידע ממליצים לארגונים להימנע מהטמעת GPT-5 בתצורתו הבסיסית. במקום זאת, יש ליישם אמצעי הקשחה מתקדמים, כולל הנדסת פקודות שכבתית ומנגנוני הגנה בזמן הרצה, לפני שילובו בסביבות ארגוניות. הממצאים מדגישים את האתגר המתמשך בהתאמת מודלים גנרטיביים חזקים לרמות בטיחות מספקות כברירת מחדל.

על אף ההתקדמות הביצועית ש-GPT-5 מציג, מצבו הנוכחי מבחינת אבטחת מידע מעיד כי נדרשת עבודה נוספת לפני שניתן יהיה לשלבו בסביבות רגישות או בפלטפורמות הנתונות לרגולציה.