Home אבטחת מידע לפרוץ את המטריקס: רגע הגלולה האדומה של הבינה המלאכותית

לפרוץ את המטריקס: רגע הגלולה האדומה של הבינה המלאכותית

Representational image of the Matrix

This post is also available in: English (אנגלית)

ככל שמודלי שפה גדולים עוברים מכלי ניסיוני לתשתית ליבה – ומניעים יישומים בתחומי הבריאות, הפיננסים והתוכנה הארגונית – הדגש עובר מיכולות לבקרה. שכבות בטיחות נועדו למנוע שימוש לרעה, אך מחקר עדכני מצביע על כך שניתן לעקוף הגנות אלה באופן שיטתי בתנאים מסוימים.

מחקר חדש מציג שיטה שנועדה לבחון את עמידות מערכות הבינה המלאכותית מבפנים, ולא רק באמצעות ניסיונות עקיפה חיצוניים דרך ניסוחי קלט מתוחכמים. הטכניקה, המכונה Head-Masked Nullspace Steering ‏(HMNS), בוחנת את מסלולי קבלת ההחלטות הפנימיים של המודל כדי לזהות אילו רכיבים אחראים ביותר ליצירת פלט מסוים. במקום לנסות "לפרוץ" את המודל באמצעות קלטים מנוסחים בקפידה, החוקרים מנתחים ומבצעים מניפולציה במבנה הפנימי שלו.

על פי דיווח של TechXplore, השיטה פועלת בשלבים. תחילה מנוטרת הדרך שבה המודל מעבד הנחיה ומזוהים הרכיבים הפנימיים הפעילים ביותר, המכונים לעיתים "ראשים". לאחר מכן מושתקים רכיבים אלה באופן סלקטיבי באמצעות איפוס תרומתם במטריצת ההחלטה של המודל. רכיבים אחרים מותאמים בעדינות – תהליך המכונה "הכוונה" – תוך מעקב מדוקדק אחר הפלטים המתקבלים. כך ניתן להבין כיצד מסלולים פנימיים ספציפיים משפיעים על התנהגות המערכת והאם ניתן לנצלם כדי לעקוף מנגנוני בטיחות.

השיטה נבחנה מול מספר מדדי ייחוס מקובלים בתעשייה והשיגה שיעורי הצלחה גבוהים יותר בהתקפה בהשוואה לטכניקות מתקדמות קיימות. בנוסף, היא דרשה פחות ניסיונות ופחות משאבי חישוב להשגת התוצאות. לשם שיפור השקיפות, הצוות הציג מדד "דיווח מודע־חישוב" (compute-aware reporting), שבוחן לא רק אם התקיפה הצליחה אלא גם כמה עוצמת עיבוד נדרשה.

אם ניתן לעקוף מנגנוני הגנה באמצעות מניפולציה פנימית ממוקדת, ייתכן שמערכות בינה מלאכותית המוטמעות בסביבות קריטיות פגיעות יותר מכפי שסברו. באמצעות חשיפת נקודות תורפה אלה, החוקרים מבקשים לתרום לפיתוח אסטרטגיות אימון, ניטור והגנה חזקות יותר.

מבחינה בטחונית, יש לכך השפעות משמעותיות – מודלי בינה מלאכותית תומכים יותר ויותר בניתוח מודיעיני, בתכנון מבצעי ובתהליכי עבודה אוטומטיים. הבנת האופן שבו מנגנונים פנימיים עלולים להיכשל – או להיות מנוצלים – חיונית להבטחת עמידות מערכות ההגנה בתנאי אמת.

החוקרים מדגישים כי מטרת המחקר אינה לאפשר שימוש לרעה, אלא לחזק את בטיחות הבינה המלאכותית באמצעות ניתוח קפדני של מצבי הכשל שלה.

המחקר פורסם כאן.