עריכה או אשליה? המחקר שמטיל ספק ביכולת למחוק מידע ממודלי שפה

מרץ 21, 2026

immo-wegmann-2TL6RxRTwnk-unsplash — Representational image of a fingerprint

This post is also available in: English (אנגלית)

מודלי שפה גדולים משולבים כיום במגוון רחב של כלים ארגוניים, מערכות שירות לקוחות ופלטפורמות ידע פנימיות. כאשר נדרש לתקן טעות או להסיר מידע בעייתי, מפתחים נוהגים להשתמש בטכניקות המכונות "עריכת מודל" (model editing), המאפשרות לעדכן פרמטרים פנימיים מבלי לאמן את המודל מחדש מהיסוד. ההנחה הרווחת הייתה כי לאחר העריכה, מידע לא רצוי או רגיש מנוטרל בפועל.

מחקר חדש מצביע על כך שהתמונה עשויה להיות מורכבת יותר.

צוות חוקרים זיהה חולשה בגישת עריכה נפוצה המכונה “locate-then-edit”. בשיטה זו מאתרים את רכיבי המודל האחראים ביותר ליצירת פלט מסוים, ולאחר מכן מעדכנים את הפרמטרים הרלוונטיים. על פי דיווח של TechXplore, עדכוני הפרמטרים עלולים להשאיר עקבות ניתנים לזיהוי, שנקראות "טביעות אצבע", שעשויות לאפשר לתוקפים להסיק מה היה התוכן שנועד להימחק.

החוקרים פיתחו מתקפת הנדסה לאחור דו־שלבית בשם KSTER – (Key Space Reconstruction-then-Entropy Reduction). בשלב הראשון הם מראים כי המבנה המתמטי של מטריצת עדכון הפרמטרים עשוי לקודד מידע על נושא העריכה. באמצעות ניתוח המרחב השורי (row space) של המטריצה בטכניקות ספקטרליות, ניתן לשחזר רמזים לגבי הנתונים שעברו שינוי. בשלב השני מיושמת שיטה לשחזור הנחיות מבוססת אנטרופיה, המאפשרת לשחזר את ההקשר הסמנטי הרחב של העריכה.

לדברי הצוות, המתקפה נוסתה בהצלחה על מספר מודלי שפה גדולים, בהם GPT-J, ‏Llama-3 ו־Qwen-2.5, והשיגה שיעורי שחזור גבוהים של מידע שנערך.

כדי להתמודד עם הסיכון, החוקרים מציעים מנגנון הגנה המכונה "subspace camouflage". הטכניקה משלבת אותות הסחה מתוכננים בקפידה בתהליך עדכון הפרמטרים, במטרה לטשטש את טביעת האצבע המזהה מבלי לפגוע ביעילות העריכה עצמה. גם שיטת התקיפה וגם מנגנון ההגנה פורסמו לצורך בחינה נוספת בקהילה.

מנקודת מבט ביטחונית ובתחום ביטחון הפנים, לממצאים יש חשיבות מיוחדת. מערכות AI משמשות יותר ויותר לעיבוד חומר מסווג, רשומות אישיות ונתונים מבצעיים. אם ניתן להפוך או לנתח בדיעבד תהליכי עריכה שנועדו להסיר מידע רגיש – ולהרכיב מחדש את התוכן – יהיו השפעות משמעויות על הגנת מידע.

בעידן שבו ארגונים מאיצים את אימוץ כלי ה־AI, המחקר מדגיש כי יש להתייחס לצנרת עריכת המודלים כאל משטח תקיפה פוטנציאלי – ולא רק ככלי תחזוקה טכני.

המחקר פורסם כאן.

עריכה או אשליה? המחקר שמטיל ספק ביכולת למחוק מידע ממודלי שפה

כתבות אחרונות

השדרוג החדש שמקצר את זמן התיקון של נשקי לייזר

חיישן ראייה חדש מחקה את העין האנושית כדי לשפר את הראייה...

הצצה רשמית ראשונה חושפת פרטים חדשים על מטוס הקרב מהדור השישי

שבב בינה מלאכותית זעיר עבר בהצלחה מבחני טיסה וחלל צבאיים

הרשת החדשה שמחברת את כל מערך ההגנה נגד רחפנים

עתיד הרובוטיקה עשוי להיות קטן יותר ממה שאתם חושבים

מרכז החדשנות INNOFENSE iHLS – מפגש סטארטאפים, בכירים וידע

מהטבע לטכנולוגיה: כך דגים משנים את הרובוטיקה התת־ימית

הטכנולוגיה החדשה שמאפשרת ליירט רחפנים גם תוך כדי נסיעה

פרצת האבטחה שנוצרה בעזרת בינה מלאכותית עלולה לפרוץ לאתר בתוך שניות

יותר עומק, פחות עייפות: העתיד של ראיית הלילה

הטכנולוגיה שמעניקה יתרון של קילומטרים מול רחפנים

נשק חדש משתמש באנרגיה אלקטרומגנטית, ולא בתחמושת, כדי להשבית רחפנים

הבינה המלאכותית שברחה מסביבת הניסוי – וביצעה מתקפת סייבר אמיתית

כך בינה מלאכותית יכולה לסייע בזיהוי מתקפות עוד לפני שהן מתחילות

כלי בינה מלאכותית חדש נועד להאיץ את קבלת ההחלטות בשדה הקרב

חוקרים עשו צעד משמעותי נוסף בדרך לרשתות דור שישי חכמות יותר

החיישנים שנועדו למכוניות מסייעים עכשיו לאתר רחפנים

כך כלב רובוטי מסייע לכבות שריפות באזורים מסוכנים

כך בלונים סטרטוספריים הופכים לכלי חדש באיסוף מודיעין