Home אבטחת מידע מחקר חדש מראה: ניתן לשתול דלתות אחוריות במודלי שפה באמצעות הרעלת נתונים...

מחקר חדש מראה: ניתן לשתול דלתות אחוריות במודלי שפה באמצעות הרעלת נתונים מינימלית

Image by Unsplash

This post is also available in: English (אנגלית)

מחקר חדש חשף פגיעות קריטית בתהליך האימון של מודלי שפה (LLMs), ומראה כי אפילו המודלים הגדולים ביותר עשויים להיפרץ באמצעות כמות מפתיעה של קלטים זדוניים. ממצאים אלו מערערים על הנחות יסוד רווחות בנוגע לאבטחת מערכות בינה מלאכותית גנרטיביות, ומעלים חששות באשר לעמידותן בסביבות קריטיות ורגישות.

המחקר, שבוצע על ידי חברת Anthropic בשיתוף המכון הבריטי לבטיחות בבינה מלאכותית (UK AI Safety Institute), מכון אלן טיורינג, ושותפים אקדמיים נוספים, מדגים כי החדרה של רק 250 מסמכים שעוצבו במיוחד למערך האימון של מודל שפה, מספיקה כדי לשתול בו דלת אחורית. לאחר שהדלת האחורית משולבת, ניתן להפעיל אותה באמצעות ביטויים ספציפיים — ולקבל פלטים מסולפים או מסוכנים.

בעבר, סברו מומחים כי מתקפות מסוג זה ידרשו שליטה באחוז משמעותי ממערך האימון של מודל, כדי להצליח להשפיע עליו בפועל. אולם המחקר הנוכחי מראה כי מספר קבוע של דוגמאות מורעלות — ולא אחוז מהנתונים — יכול להספיק כדי לפגוע במודלים בגדלים שונים מאוד. לדוגמה, מודלים בני 600 מיליון פרמטרים ומודלים עם 13 מיליארד פרמטרים היו פגיעים לאותה כמות מינימלית של הרעלה, כך על פי ההודעה לעיתונות של Anthropic.

שיטת תקיפה זו, המכונה הרעלת נתונים (Data Poisoning), מתבצעת על ידי החדרת תוכן זדוני למערך האימון, באופן שיגרום למודל ללמוד דפוסי תגובה מזיקים או חריגים. מכיוון שמרבית המודלים מאומנים על כמויות עצומות של טקסטים פומביים, קיימת אפשרות תיאורטית לתוקפים לשלב תכנים כאלה בפורומים, בלוגים, מאגרי קוד פתוח, ועוד מקורות ציבוריים.

אחת הדוגמאות שצוינה במחקר כוללת מצב שבו המודל מדליף מידע רגיש כאשר מוצגת לו מילת קוד שהוזנה מראש על ידי התוקף. חולשות נסתרות מסוג זה מדאיגות במיוחד כשמדובר בשימושים ממשלתיים, ביטחוניים או רפואיים — תחומים בהם שלמות הנתונים ופרטיות המידע הם קריטיים.

המחקר מדגיש את הצורך הדחוף ביישום מנגנוני הגנה חזקים יותר בשלבי איסוף הנתונים ואימון המודלים. בהיעדר הגנות כאלה, קיים סיכון ממשי לשיבוש מתוחכם אך אפקטיבי של מודלים, שמהווה מכשול משמעותי בפני פריסת מערכות בינה מלאכותית בטוחה בסביבות רגישות.