נשק אנטי-בינה מלאכותית מציל מודלים משימוש זדוני

נשק אנטי-בינה מלאכותית מציל מודלים משימוש זדוני

image provided by pixabay

This post is also available in: enEnglish (אנגלית)

המטרה הכוללת היא לספק כלי שיאפשר לחוקרים להעריך ולטפל בסיכונים הקשורים ל-AI ומודלי שפה גדולה המשמשים למטרות מזיקות.

בעקבות החשש הגובר מהפוטנציאל של טכנולוגיות AI ליצור נשקים או לבצע התקפות המוניות, קבוצה של מומחים יצרה מערך נתונים שלא רק מציע שיטה לבדוק אם למודל AI יש מידע מסוכן, אלא גם מספק דרך להסיר את המידע המסוכן מבלי לשנות את שאר המודל. מערך הנתונים נקרא WMDP (Weapons of Mass Destruction Proxy).

החוקרים התייעצו עם מומחים בתחום האבטחה הביולוגית, הנשק הכימי ואבטחת הסייבר, אשר בתורם ציינו את כל הדרכים האפשריות ליצירת נזק בתחומם. לאחר מכן החוקרים יצרו את 4,000 השאלות האמריקאיות שנועדו לבדוק את הידע של מישהו (או משהו, כמו מודל בינה מלאכותית) על איך לגרום לנזקים אלה.

בנוסף למערך הנתונים, הצוות הציג גם שיטת unlearning חדשה בשם CUT המסירה ידע מסוכן ממודלי בינה מלאכותית תוך שמירה על היכולות הכוללות שלהם בתחומים אחרים (כמו ביולוגיה או מדעי המחשב).

על פי Interesting Engineering, יש למערך הנתונים WMDP שתי מטרות עיקריות: מתן דרך להעריך עד כמה המודלים מבינים נושאים מסוכנים, ואמת מידה לפיתוח שיטות לגרום למודלים "לשכוח" את הידע הזה.

הבעיה היא שדי פשוט לעקוף את השיטות הנוכחיות בהן חברות טכנולוגיית AI משתמשות כדי לשלוט בפלט של המערכות שלהן, והבדיקות המוודאות אם מודל AI עלול להיות מסוכן לוקחות הרבה זמן ומאוד יקרות.

דן הנדריקס, מנכ"ל המרכז לבטיחות AI והמחבר הראשי של המחקר, אמר בראיון: "התקווה שלנו היא ששיטה זו תאומץ כאחת מאמות המידה העיקריות מולן כל מפתחי הקוד הפתוח ישוו את המודלים שלהם, מה שייתן מסגרת טובה לפחות לדחוף אותם למזער בעיות בטיחות".