מודלי שפה לא עמידים מספיק בפני מניפולציות, וזה מסוכן

May 21, 2024

This post is also available in: English (אנגלית)

ניתן לרמות בקלות את רוב מודלי השפה (LLM) ולגרום להם לחשוף מידע מסוכן או לא אתי, כך על פי מאמר של חוקרים ממעבדות AWS AI בו הם מסבירים את התגלית שלהם ומספקים פתרונות אפשריים.

כיום ידוע כי מודלי שפה משמשים בין השאר למטרות מזיקות, יצירת מידע שגוי להפצה ברשתות החברתיות, וקבלת מידע על ביצוע פעילויות בלתי חוקיות כמו יצירת נשק, ביצוע הונאת מס, או אפילו ניהול שוד.

החברות שיצרו את המערכות הללו הגיבו לתופעה בכך שהוסיפו כללים שנועדו למנוע מהמערכות לספק תשובות לשאלות שעלולות להיות מסוכנות, בלתי חוקיות או מזיקות. עם זאת, המחקר הנ"ל טוען כי אמצעי ההגנה האלה פשוט לא חזקים מספיק, וניתן לעקוף אותם בקלות באמצעות אותות אודיו פשוטים.

על פי Interesting Engineering, עבודת החוקרים כללה פריצה של מספר מודלי שפה על ידי כך שהוסיפו אודיו שאפשר להם לעקוף את ההגבלות שהוטלו על ידי יוצרי המודל. השיטה המדויקת בה השתמשו במחקר לא נחשפה מתוך חשש כי גורמים זדוניים ישתמשו בה כדי לפרוץ מודלי שפה. עם זאת, החוקרים כן ציינו כי הם השתמשו בעבודתם בטכניקה אותה הם מכנים "ירידה הדרגתית מתוכננת".

החוקרים סיפקו דוגמה עקיפה ותיארו כיצד הם השתמשו בהצהרות פשוטות עם מודל אחד ואחריו חזרה על שאילתה מקורית, מה שהכניס את מודל השפה למצב שבו הוא מתעלם מההגבלות שתוכנתו לתוכו. הם גם מדווחים כי הצליחו לעקוף מודלים שונים בדרגות שונות, וכי זה תלוי ברמת הגישה שהייתה להם למודל. עם זאת, נראה כי כאשר שיטה הוכיחה כמוצלחת במודל אחד, ניתן היה לשכפל את ההצלחה הזאת גם למודלים אחרים.

צוות המחקר סיכם את המאמר בכך שהציע כי יוצרים של מודלים שפה יוסיפו אלמנטים כמו רעש אקראי לקלט אודיו כדי למנוע מהמשתמשים לעקוף את אמצעי ההגנה שלהם.

המאמר של החוקרים, שנקרא " SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models" פורסם בשרת ההדפסה המוקדמת arXiv.

מודלי שפה לא עמידים מספיק בפני מניפולציות, וזה מסוכן

כתבות אחרונות

הקשר בין גלי פיטורים לפריצות אבטחה בחברות

מסוק איירבוס מהפכני שובר שיאי מהירות

טיל החלל הגרעיני של ארה"ב מקצר משמעותית את המסע למאדים

מתקפת סייבר באוקראינה משביתה את החימום ל-600 בנייני מגורים

הנפילה העולמית של CrowdStrike וההשלכות של תוכנת אבטחת סייבר פולשנית

התנועה האופטימלית ביותר לרובוטים שואבת השראה מהליכה של לטאות

בינה מלאכותית לומדת לחזות ולשלוט בשריפות ענק

כנופיית הסייבר הרוסית NoName מתקיפה לאחר שחבריה נעצרו בספרד

צבא בריטניה מבצע ניסויים בטכנולוגייה לבישה לזיהוי לייזר ובקרת רחפנים

צ'יפ מוח חדש מחולל מהפכה בטיפול בחולי פרקינסון

חליפת חלל מהפכנית הופכת נוזלי גוף למי שתייה

מטוסי הקרב של Airbus מקבלים "טייסי משנה" מ-AI

הכשב"מים של אוקראינה נהיו קטלניים יותר

פריצת דרך ענקית בתחום תקשורת הלייזר בחלל

מודל AI משפר אנליזת סריקות לב ומזרז טיפול

נשק הלייזר המאפשר לצוללות להפיל לוויינים

התקלה ההיסטורית השפיעה על 8.5 מיליון מכשירי מייקרוסופט והובילה למתקפות סייבר

רחפן זעיר מקבל עיניי AI לניווט עצמאי

5,000 רחפנים עצמאיים טסו יחד בבטחה בניסוי מהפכני לתעבורת רחפנים

המכ"ם הסיני החדש המסוגל לגבור על המשבשים העוצמתיים ביותר של צבא...