מחקר חדש מראה: ניתן לשתול דלתות אחוריות במודלי שפה באמצעות הרעלת נתונים מינימלית

אוקטובר 13, 2025

This post is also available in: English (אנגלית)

מחקר חדש חשף פגיעות קריטית בתהליך האימון של מודלי שפה (LLMs), ומראה כי אפילו המודלים הגדולים ביותר עשויים להיפרץ באמצעות כמות מפתיעה של קלטים זדוניים. ממצאים אלו מערערים על הנחות יסוד רווחות בנוגע לאבטחת מערכות בינה מלאכותית גנרטיביות, ומעלים חששות באשר לעמידותן בסביבות קריטיות ורגישות.

המחקר, שבוצע על ידי חברת Anthropic בשיתוף המכון הבריטי לבטיחות בבינה מלאכותית (UK AI Safety Institute), מכון אלן טיורינג, ושותפים אקדמיים נוספים, מדגים כי החדרה של רק 250 מסמכים שעוצבו במיוחד למערך האימון של מודל שפה, מספיקה כדי לשתול בו דלת אחורית. לאחר שהדלת האחורית משולבת, ניתן להפעיל אותה באמצעות ביטויים ספציפיים — ולקבל פלטים מסולפים או מסוכנים.

בעבר, סברו מומחים כי מתקפות מסוג זה ידרשו שליטה באחוז משמעותי ממערך האימון של מודל, כדי להצליח להשפיע עליו בפועל. אולם המחקר הנוכחי מראה כי מספר קבוע של דוגמאות מורעלות — ולא אחוז מהנתונים — יכול להספיק כדי לפגוע במודלים בגדלים שונים מאוד. לדוגמה, מודלים בני 600 מיליון פרמטרים ומודלים עם 13 מיליארד פרמטרים היו פגיעים לאותה כמות מינימלית של הרעלה, כך על פי ההודעה לעיתונות של Anthropic.

שיטת תקיפה זו, המכונה הרעלת נתונים (Data Poisoning), מתבצעת על ידי החדרת תוכן זדוני למערך האימון, באופן שיגרום למודל ללמוד דפוסי תגובה מזיקים או חריגים. מכיוון שמרבית המודלים מאומנים על כמויות עצומות של טקסטים פומביים, קיימת אפשרות תיאורטית לתוקפים לשלב תכנים כאלה בפורומים, בלוגים, מאגרי קוד פתוח, ועוד מקורות ציבוריים.

אחת הדוגמאות שצוינה במחקר כוללת מצב שבו המודל מדליף מידע רגיש כאשר מוצגת לו מילת קוד שהוזנה מראש על ידי התוקף. חולשות נסתרות מסוג זה מדאיגות במיוחד כשמדובר בשימושים ממשלתיים, ביטחוניים או רפואיים — תחומים בהם שלמות הנתונים ופרטיות המידע הם קריטיים.

המחקר מדגיש את הצורך הדחוף ביישום מנגנוני הגנה חזקים יותר בשלבי איסוף הנתונים ואימון המודלים. בהיעדר הגנות כאלה, קיים סיכון ממשי לשיבוש מתוחכם אך אפקטיבי של מודלים, שמהווה מכשול משמעותי בפני פריסת מערכות בינה מלאכותית בטוחה בסביבות רגישות.

מחקר חדש מראה: ניתן לשתול דלתות אחוריות במודלי שפה באמצעות הרעלת נתונים מינימלית

כתבות אחרונות

השדרוג החדש שמקצר את זמן התיקון של נשקי לייזר

חיישן ראייה חדש מחקה את העין האנושית כדי לשפר את הראייה...

הצצה רשמית ראשונה חושפת פרטים חדשים על מטוס הקרב מהדור השישי

שבב בינה מלאכותית זעיר עבר בהצלחה מבחני טיסה וחלל צבאיים

הרשת החדשה שמחברת את כל מערך ההגנה נגד רחפנים

עתיד הרובוטיקה עשוי להיות קטן יותר ממה שאתם חושבים

מרכז החדשנות INNOFENSE iHLS – מפגש סטארטאפים, בכירים וידע

מהטבע לטכנולוגיה: כך דגים משנים את הרובוטיקה התת־ימית

הטכנולוגיה החדשה שמאפשרת ליירט רחפנים גם תוך כדי נסיעה

פרצת האבטחה שנוצרה בעזרת בינה מלאכותית עלולה לפרוץ לאתר בתוך שניות

יותר עומק, פחות עייפות: העתיד של ראיית הלילה

הטכנולוגיה שמעניקה יתרון של קילומטרים מול רחפנים

נשק חדש משתמש באנרגיה אלקטרומגנטית, ולא בתחמושת, כדי להשבית רחפנים

הבינה המלאכותית שברחה מסביבת הניסוי – וביצעה מתקפת סייבר אמיתית

כך בינה מלאכותית יכולה לסייע בזיהוי מתקפות עוד לפני שהן מתחילות

כלי בינה מלאכותית חדש נועד להאיץ את קבלת ההחלטות בשדה הקרב

חוקרים עשו צעד משמעותי נוסף בדרך לרשתות דור שישי חכמות יותר

החיישנים שנועדו למכוניות מסייעים עכשיו לאתר רחפנים

כך כלב רובוטי מסייע לכבות שריפות באזורים מסוכנים

כך בלונים סטרטוספריים הופכים לכלי חדש באיסוף מודיעין