חוקרים חושפים דלת אחורית חמורה במודלי שפה מתקדמים

Image by Unsplash

This post is also available in: English (אנגלית)

בזמן שמודלי שפה גדולים (LLM) כמו ChatGPT מתחילים להיות משולבים יותר ויותר לתוך יישומים יומיומיים, חוקרי אבטחה מתחילים לבחון את נקודות התורפה שלהם. מחקר שנערך לאחרונה על ידי ג'ן גואו ורזא טוראני מאוניברסיטת סנט לואיס מציג את DarkMind, התקפת דלת אחורית מתוחכמת המסוגלת לתמרן LLM במהלך תהליך החשיבה שלהם, מה שהופך אותה לקשה במיוחד לזיהוי. לניצול החדש הזה יכולות להיות השלכות משמעותיות על האבטחה של מערכות מונחות בינה מלאכותית המשמשות בתעשיות שונות. ממצאי הצוות מפורטים ב-TechXplore, ומאמרם פורסם ב-arXiv.

החוקרים מיקדו את מאמציהם במודלים המתבססים על Chain-of-Thought (CoT) reasoning paradigm, שיטה שבה משתמשים מודלי שפה רבים, כולל ChatGPT, כדי לפרק בעיות מורכבות לצעדים ברי פעולה. בעוד שהתקפות דלת אחורית מסורתיות כרוכות לעתים קרובות במניפולציה של קלט המשתמש או אימון מחדש של מודלים, DarkMind פועלת באופן שונה. היא מוסיפה גורמים נסתרים לתוך יישומי LLM, אשר נשארים רדומים עד שמופעלים על ידי דפוסי חשיבה ספציפיים. גורמים אלה משנים את הפלט של המודל רק במהלך שלבי החשיבה הבינוניים, מה שהופך את ההתקפה לבלתי נראית בשלב הראשוני של המשתמש.

על פי TechXplore, הממצאים של גואו וטוראני מצביעים על כך שהתקפה זו יעילה במיוחד נגד מודלי שפה מתקדמים עם יכולות חשיבה חזקות. באופן מפתיע, ככל שכושר החשיבה של המודל חזק יותר, כך הוא הופך לפגיע יותר עבור DarkMind. זה מהווה סיכון משמעותי עבור מערכות המשתמשות במודלי שפה, כגון אלה במגזרים קריטיים כמו בריאות או בנקאות, בהם אפילו שינויים עדינים בקבלת החלטות עלולים להוביל להשלכות חמורות.

אחת מנקודות החוזק העיקריות של DarkMind היא קלות היישום שלה. בניגוד להתקפות אחרות, שדורשות בדרך כלל מספר דוגמאות לאימון, ניתן לפרוס את DarkMind ללא הדגמות קודמות, מה שהופך אותה למסוכנת במיוחד לניצול בעולם האמיתי. ההתקפה היא עמידה, אפילו על פני משימות שפה שונות, כגון חשיבה הגיונית, חישובים מתמטיים, וחשיבה סימבולית.

טוראני וגואו גם השוו את DarkMind למתקפות קיימות כמו BadChain ו-DT-Base, וגילו כי DarkMind יותר קשה לגילוי ולטיפול, מה שהופך אותה לאתגר אדיר עבור מערכות אבטחה. בתגובה לגילוי שלהם, החוקרים כבר עובדים על פיתוח אמצעי נגד, כולל בדיקות עקביות היגיון וזיהוי טריגר עוין, כדי להגן טוב יותר על LLM מפני חולשות עתידיות.

בעת בה התפקיד של AI ממשיך להתרחב, הבנה וטיפול בסוגים אלה של איומים יהיה חיוני כדי להבטיח את העתיד של טכנולוגיות מבוססות LLM.