מודלי שפה לא עמידים מספיק בפני מניפולציות, וזה מסוכן

Image provided by pixabay

This post is also available in: English (אנגלית)

ניתן לרמות בקלות את רוב מודלי השפה (LLM) ולגרום להם לחשוף מידע מסוכן או לא אתי, כך על פי מאמר של חוקרים ממעבדות AWS AI בו הם מסבירים את התגלית שלהם ומספקים פתרונות אפשריים.

כיום ידוע כי מודלי שפה משמשים בין השאר למטרות מזיקות, יצירת מידע שגוי להפצה ברשתות החברתיות, וקבלת מידע על ביצוע פעילויות בלתי חוקיות כמו יצירת נשק, ביצוע הונאת מס, או אפילו ניהול שוד.

החברות שיצרו את המערכות הללו הגיבו לתופעה בכך שהוסיפו כללים שנועדו למנוע מהמערכות לספק תשובות לשאלות שעלולות להיות מסוכנות, בלתי חוקיות או מזיקות. עם זאת, המחקר הנ"ל טוען כי אמצעי ההגנה האלה פשוט לא חזקים מספיק, וניתן לעקוף אותם בקלות באמצעות אותות אודיו פשוטים.

על פי Interesting Engineering, עבודת החוקרים כללה פריצה של מספר מודלי שפה על ידי כך שהוסיפו אודיו שאפשר להם לעקוף את ההגבלות שהוטלו על ידי יוצרי המודל. השיטה המדויקת בה השתמשו במחקר לא נחשפה מתוך חשש כי גורמים זדוניים ישתמשו בה כדי לפרוץ מודלי שפה. עם זאת, החוקרים כן ציינו כי הם השתמשו בעבודתם בטכניקה אותה הם מכנים "ירידה הדרגתית מתוכננת".

החוקרים סיפקו דוגמה עקיפה ותיארו כיצד הם השתמשו בהצהרות פשוטות עם מודל אחד ואחריו חזרה על שאילתה מקורית, מה שהכניס את מודל השפה למצב שבו הוא מתעלם מההגבלות שתוכנתו לתוכו. הם גם מדווחים כי הצליחו לעקוף מודלים שונים בדרגות שונות, וכי זה תלוי ברמת הגישה שהייתה להם למודל. עם זאת, נראה כי כאשר שיטה הוכיחה כמוצלחת במודל אחד, ניתן היה לשכפל את ההצלחה הזאת גם למודלים אחרים.

צוות המחקר סיכם את המאמר בכך שהציע כי יוצרים של מודלים שפה יוסיפו אלמנטים כמו רעש אקראי לקלט אודיו כדי למנוע מהמשתמשים לעקוף את אמצעי ההגנה שלהם.

המאמר של החוקרים, שנקרא " SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models" פורסם בשרת ההדפסה המוקדמת arXiv.