Home אבטחת מידע עריכה או אשליה? המחקר שמטיל ספק ביכולת למחוק מידע ממודלי שפה

עריכה או אשליה? המחקר שמטיל ספק ביכולת למחוק מידע ממודלי שפה

Representational image of a fingerprint

This post is also available in: English (אנגלית)

מודלי שפה גדולים משולבים כיום במגוון רחב של כלים ארגוניים, מערכות שירות לקוחות ופלטפורמות ידע פנימיות. כאשר נדרש לתקן טעות או להסיר מידע בעייתי, מפתחים נוהגים להשתמש בטכניקות המכונות "עריכת מודל" (model editing), המאפשרות לעדכן פרמטרים פנימיים מבלי לאמן את המודל מחדש מהיסוד. ההנחה הרווחת הייתה כי לאחר העריכה, מידע לא רצוי או רגיש מנוטרל בפועל.

מחקר חדש מצביע על כך שהתמונה עשויה להיות מורכבת יותר.

צוות חוקרים זיהה חולשה בגישת עריכה נפוצה המכונה “locate-then-edit”. בשיטה זו מאתרים את רכיבי המודל האחראים ביותר ליצירת פלט מסוים, ולאחר מכן מעדכנים את הפרמטרים הרלוונטיים. על פי דיווח של TechXplore, עדכוני הפרמטרים עלולים להשאיר עקבות ניתנים לזיהוי,  שנקראות "טביעות אצבע", שעשויות לאפשר לתוקפים להסיק מה היה התוכן שנועד להימחק.

החוקרים פיתחו מתקפת הנדסה לאחור דו־שלבית בשם KSTER – (Key Space Reconstruction-then-Entropy Reduction). בשלב הראשון הם מראים כי המבנה המתמטי של מטריצת עדכון הפרמטרים עשוי לקודד מידע על נושא העריכה. באמצעות ניתוח המרחב השורי (row space) של המטריצה בטכניקות ספקטרליות, ניתן לשחזר רמזים לגבי הנתונים שעברו שינוי. בשלב השני מיושמת שיטה לשחזור הנחיות מבוססת אנטרופיה, המאפשרת לשחזר את ההקשר הסמנטי הרחב של העריכה.

לדברי הצוות, המתקפה נוסתה בהצלחה על מספר מודלי שפה גדולים, בהם GPT-J, ‏Llama-3 ו־Qwen-2.5, והשיגה שיעורי שחזור גבוהים של מידע שנערך.

כדי להתמודד עם הסיכון, החוקרים מציעים מנגנון הגנה המכונה "subspace camouflage". הטכניקה משלבת אותות הסחה מתוכננים בקפידה בתהליך עדכון הפרמטרים, במטרה לטשטש את טביעת האצבע המזהה מבלי לפגוע ביעילות העריכה עצמה. גם שיטת התקיפה וגם מנגנון ההגנה פורסמו לצורך בחינה נוספת בקהילה.

מנקודת מבט ביטחונית ובתחום ביטחון הפנים, לממצאים יש חשיבות מיוחדת. מערכות AI משמשות יותר ויותר לעיבוד חומר מסווג, רשומות אישיות ונתונים מבצעיים. אם ניתן להפוך או לנתח בדיעבד תהליכי עריכה שנועדו להסיר מידע רגיש – ולהרכיב מחדש את התוכן – יהיו השפעות משמעויות על הגנת מידע.

בעידן שבו ארגונים מאיצים את אימוץ כלי ה־AI, המחקר מדגיש כי יש להתייחס לצנרת עריכת המודלים כאל משטח תקיפה פוטנציאלי – ולא רק ככלי תחזוקה טכני.

המחקר פורסם כאן.