מיקרוסופט משיקה את כלב השמירה של ה-AI

Apr 14, 2024

This post is also available in: English (אנגלית)

חברת מיקרוסופט הכריזה על טכניקות חדשות שפיתחה על מנת להילחם בשני סוגי התקפות בהן משתמשים גורמים זדוניים כדי לפרוץ מערכות בינה מלאכותית – ספוטלייט AI (המפריד בין הוראות המשתמש לתוכן הרעיל) וכלב השמירה של ה-AI (אשר מאומן לזהות הוראות זדוניות).

מתקפות בהן גורמים זדוניים משתמשים בהנחיות זדוניות ובתוכן "מורעל" יכולות לגרום לנזק רב ו-"לפרוץ" את מערכות ה-AI. ההשלכות של מתקפות אלה יכולות לנוע בין בלתי מזיקות (כמו לגרום לממשק לדבר כמו פיראט) למאוד מסוכנות (לגרום למודל לספק הוראות מפורטות על איך לבצע פעילויות בלתי חוקיות).

טכניקות ההגנה החדשות של מיקרוסופט נועדו להילחם בשני סוגי התקפות: הנחיות זדוניות (ניסיונות המשתמש לתת הוראות שיעקפו את מערכות הבטיחות של המודל כדי להשיג מטרה מסוכנת) והתקפות תוכן מורעל. על פי Interesting Engineering, התקפת תוכן מורעל מתרחשת כאשר משתמש תמים מבקש ממערכת בינה מלאכותית לעבד מסמך שנראה בלתי מזיק אך מכיל תוכן זדוני שנוצר ע"י צד שלישי במטרה לנצל פגם במערכת.

טכניקת ההגנה "AI ספוטלייט" מפחיתה באופן דרמטי את שיעור ההצלחה של התקפות מסוג זה. היא עובדת בכך שהיא מפרידה בבירור בין נתונים חיצוניים לבין ההוראות של המודל, כך שהמודל רק מנתח את התוכן ולא יכול לקרוא הוראות נוספות המסתתרות בתוכו.

מיקרוסופט מסבירה בנוסף כי גורמים זדוניים מצאו דרך לעקוף מסנני בטיחות תוכן רבים על ידי שימוש בשרשראות של הנחיות "תמימות" ההולכות ומחמירות, באינן מזיקות בפני עצמן אך שוחקות בהדרגה את ההגנות של המודל. "ניתן לעקוף חסמים ומסננים על ידי שאילת שאלות בעלות מבנה קפדני או הנחיות שמובילות בהדרגה את המודל לתוצאה הרצויה, במקום לבקש את המטרה בבת אחת…בדרך כלל ניתן להשיג את המטרה בפחות מעשר הוראות ". החברה מטפלת בכך על-ידי הנחיית המסנן המובנה במודל להסתכל על כל התבנית של השיחה הקודמת.

"כלב השמירה של ה-AI" היא מערכת גילוי נוספת ונפרדת המונעת על ידי AI ומאומנת על דגימות של גורמים זדוניים, אינה מושפעת מהוראות זדוניות תוך ניתוח ההנחיות להתנהגות "שלילית", ולבסוף בודקת את התפוקה של המודל כדי להבטיח שהיא אינה זדונית בפני עצמה.

מיקרוסופט משיקה את כלב השמירה של ה-AI

כתבות אחרונות

הג׳ל המתכתי הראשון בעולם עשוי להניע את עתיד האנרגיה

סכנה למשתמשים: הדליפה שמזכירה לכולנו להחליף סיסמה

שידור רציף, גם על כנף מטוס: אנטנות גמישות בהדפסה תלת־ממדית

קפיצה בזיהוי חזותי: בינה מלאכותית לומדת להבחין בפריטים אישיים

העתיד של השיקום הוויזואלי בעזרת בינה מלאכותית

פיתוח חדש מבטיח סוללות בטוחות יותר, עמידות וידידותיות לסביבה

עם דיוק של 99%: כך חברת Never Mine מעצבת מחדש את...

שיטה חדשה לייצור מגנטים תחזק את מנועי האנרגיה הנקייה

היכונו לעתיד: לא צריך 1.21 ג'יגו-וואט, רק תשתית טובה

מערכת רובוטית דקיקה מציעה טיפול ממוקד בגוף

צריח חדש עם הגנה חכמה לרחפנים ומטוסים נמוכים

מעקב אחר יתושים ושיטפונות מהחלל

כמו פרחים בטבע: רובוטי דנ"א זעירים שמשנים את חוקי המשחק הרפואי

מנוע זעיר מדגים חום קיצוני לחקר תרמודינמיקה ומחלות

חוקרים הצליחו להגיע לדיוק במיקום ברמת הסנטימטרים בשעונים חכמים

רופא בכיס החלל: עוזרים דיגיטליים לשמירת בריאות במרחק מיליוני ק"מ

טכנולוגיית אבטחה שאי אפשר לשכפל – בתוך טיפה של ג'ל

מצמצמים את פער הטאלנטים העולמי עם בינה מלאכותית: כך חברת אייברס...

כלי קוד פתוח חדש משנה את חוקי המשחק בהדפסה מרובת־חומרים

חכם בשמש – החיישן השקוף שיזהיר אותך לפני שתישרף