מיקרוסופט משיקה את כלב השמירה של ה-AI

מיקרוסופט משיקה את כלב השמירה של ה-AI

image provided by pixabay

This post is also available in: enEnglish (אנגלית)

חברת מיקרוסופט הכריזה על טכניקות חדשות שפיתחה על מנת להילחם בשני סוגי התקפות בהן משתמשים גורמים זדוניים כדי לפרוץ מערכות בינה מלאכותית – ספוטלייט AI (המפריד בין הוראות המשתמש לתוכן הרעיל) וכלב השמירה של ה-AI (אשר מאומן לזהות הוראות זדוניות).

מתקפות בהן גורמים זדוניים משתמשים בהנחיות זדוניות ובתוכן "מורעל" יכולות לגרום לנזק רב ו-"לפרוץ" את מערכות ה-AI. ההשלכות של מתקפות אלה יכולות לנוע בין בלתי מזיקות (כמו לגרום לממשק לדבר כמו פיראט) למאוד מסוכנות (לגרום למודל לספק הוראות מפורטות על איך לבצע פעילויות בלתי חוקיות).

טכניקות ההגנה החדשות של מיקרוסופט נועדו להילחם בשני סוגי התקפות: הנחיות זדוניות (ניסיונות המשתמש לתת הוראות שיעקפו את מערכות הבטיחות של המודל כדי להשיג מטרה מסוכנת) והתקפות תוכן מורעל. על פי Interesting Engineering, התקפת תוכן מורעל מתרחשת כאשר משתמש תמים מבקש ממערכת בינה מלאכותית לעבד מסמך שנראה בלתי מזיק אך מכיל תוכן זדוני שנוצר ע"י צד שלישי במטרה לנצל פגם במערכת.

טכניקת ההגנה "AI ספוטלייט" מפחיתה באופן דרמטי את שיעור ההצלחה של התקפות מסוג זה. היא עובדת בכך שהיא מפרידה בבירור בין נתונים חיצוניים לבין ההוראות של המודל, כך שהמודל רק מנתח את התוכן ולא יכול לקרוא הוראות נוספות המסתתרות בתוכו.

מיקרוסופט מסבירה בנוסף כי גורמים זדוניים מצאו דרך לעקוף מסנני בטיחות תוכן רבים על ידי שימוש בשרשראות של הנחיות "תמימות" ההולכות ומחמירות, באינן מזיקות בפני עצמן אך שוחקות בהדרגה את ההגנות של המודל. "ניתן לעקוף חסמים ומסננים על ידי שאילת שאלות בעלות מבנה קפדני או הנחיות שמובילות בהדרגה את המודל לתוצאה הרצויה, במקום לבקש את המטרה בבת אחת…בדרך כלל ניתן להשיג את המטרה בפחות מעשר הוראות ". החברה מטפלת בכך על-ידי הנחיית המסנן המובנה במודל להסתכל על כל התבנית של השיחה הקודמת.

"כלב השמירה של ה-AI" היא מערכת גילוי נוספת ונפרדת המונעת על ידי AI ומאומנת על דגימות של גורמים זדוניים, אינה מושפעת מהוראות זדוניות תוך ניתוח ההנחיות להתנהגות "שלילית", ולבסוף בודקת את התפוקה של המודל כדי להבטיח שהיא אינה זדונית בפני עצמה.