נשק אנטי-בינה מלאכותית מציל מודלים משימוש זדוני

Mar 11, 2024

This post is also available in: English (אנגלית)

המטרה הכוללת היא לספק כלי שיאפשר לחוקרים להעריך ולטפל בסיכונים הקשורים ל-AI ומודלי שפה גדולה המשמשים למטרות מזיקות.

בעקבות החשש הגובר מהפוטנציאל של טכנולוגיות AI ליצור נשקים או לבצע התקפות המוניות, קבוצה של מומחים יצרה מערך נתונים שלא רק מציע שיטה לבדוק אם למודל AI יש מידע מסוכן, אלא גם מספק דרך להסיר את המידע המסוכן מבלי לשנות את שאר המודל. מערך הנתונים נקרא WMDP (Weapons of Mass Destruction Proxy).

החוקרים התייעצו עם מומחים בתחום האבטחה הביולוגית, הנשק הכימי ואבטחת הסייבר, אשר בתורם ציינו את כל הדרכים האפשריות ליצירת נזק בתחומם. לאחר מכן החוקרים יצרו את 4,000 השאלות האמריקאיות שנועדו לבדוק את הידע של מישהו (או משהו, כמו מודל בינה מלאכותית) על איך לגרום לנזקים אלה.

בנוסף למערך הנתונים, הצוות הציג גם שיטת unlearning חדשה בשם CUT המסירה ידע מסוכן ממודלי בינה מלאכותית תוך שמירה על היכולות הכוללות שלהם בתחומים אחרים (כמו ביולוגיה או מדעי המחשב).

על פי Interesting Engineering, יש למערך הנתונים WMDP שתי מטרות עיקריות: מתן דרך להעריך עד כמה המודלים מבינים נושאים מסוכנים, ואמת מידה לפיתוח שיטות לגרום למודלים "לשכוח" את הידע הזה.

הבעיה היא שדי פשוט לעקוף את השיטות הנוכחיות בהן חברות טכנולוגיית AI משתמשות כדי לשלוט בפלט של המערכות שלהן, והבדיקות המוודאות אם מודל AI עלול להיות מסוכן לוקחות הרבה זמן ומאוד יקרות.

דן הנדריקס, מנכ"ל המרכז לבטיחות AI והמחבר הראשי של המחקר, אמר בראיון: "התקווה שלנו היא ששיטה זו תאומץ כאחת מאמות המידה העיקריות מולן כל מפתחי הקוד הפתוח ישוו את המודלים שלהם, מה שייתן מסגרת טובה לפחות לדחוף אותם למזער בעיות בטיחות".

נשק אנטי-בינה מלאכותית מציל מודלים משימוש זדוני

כתבות אחרונות

סכנה למשתמשים: הדליפה שמזכירה לכולנו להחליף סיסמה

שידור רציף, גם על כנף מטוס: אנטנות גמישות בהדפסה תלת־ממדית

קפיצה בזיהוי חזותי: בינה מלאכותית לומדת להבחין בפריטים אישיים

העתיד של השיקום הוויזואלי בעזרת בינה מלאכותית

פיתוח חדש מבטיח סוללות בטוחות יותר, עמידות וידידותיות לסביבה

עם דיוק של 99%: כך חברת Never Mine מעצבת מחדש את...

שיטה חדשה לייצור מגנטים תחזק את מנועי האנרגיה הנקייה

היכונו לעתיד: לא צריך 1.21 ג'יגו-וואט, רק תשתית טובה

מערכת רובוטית דקיקה מציעה טיפול ממוקד בגוף

צריח חדש עם הגנה חכמה לרחפנים ומטוסים נמוכים

מעקב אחר יתושים ושיטפונות מהחלל

כמו פרחים בטבע: רובוטי דנ"א זעירים שמשנים את חוקי המשחק הרפואי

מנוע זעיר מדגים חום קיצוני לחקר תרמודינמיקה ומחלות

חוקרים הצליחו להגיע לדיוק במיקום ברמת הסנטימטרים בשעונים חכמים

רופא בכיס החלל: עוזרים דיגיטליים לשמירת בריאות במרחק מיליוני ק"מ

טכנולוגיית אבטחה שאי אפשר לשכפל – בתוך טיפה של ג'ל

מצמצמים את פער הטאלנטים העולמי עם בינה מלאכותית: כך חברת אייברס...

כלי קוד פתוח חדש משנה את חוקי המשחק בהדפסה מרובת־חומרים

חכם בשמש – החיישן השקוף שיזהיר אותך לפני שתישרף

אטלס: הדפדפן מבוסס בינה מלאכותית שמנסה לשנות את חוויית החיפוש באינטרנט