חולשה חדשה התגלתה במודלי שפה גדולים

חולשה חדשה התגלתה במודלי שפה גדולים

image provided by pixabay

This post is also available in: enEnglish (אנגלית)

חולשה חדשה התגלתה במודלי שפה גדולים

מודלי שפה גדולים, או LLM, הם מודלים המשתמשים בטכניקות למידה עמוקה כדי לעבד וליצור טקסט שמדמה כתיבה אנושית. הם יכולים ליצור תגובות, לתרגם שפות, לסכם טקסט, לענות על שאלות, ולבצע מגוון רחב של משימות עיבוד שפה. הם מצליחים לעשות זאת על ידי הכשרה של כמויות נתונים עצומות מאתרי אינטרנט, מדיה חברתית, ספרים ומקורות אחרים.

הצמיחה המהירה של טכנולוגיה מבוססת בינה מלאכותית הובילה ליצירת צ'אטבוטים כמו צ'אט GPT או גוגל בארד, ולמרות שהם מועילים מאוד, ישנם חששות לגבי היכולת שלהם לייצר תוכן בעייתי, והתוצאות שעשויות לנבוע מכך.

על פי אתר Interesting Engineering, חולשה חדשה נחשפה על ידי חוקרים בבית הספר למדעי המחשב של אוניברסיטת קרנגי מלון (SCS), המכון לאבטחה ופרטיות CyLab, והמרכז לבטיחות בינה מלאכותית בסן פרנסיסקו. הם טוענים שמצאו שיטת התקפה פשוטה ויעילה שיכולה לגרום למודלי שפה גדולים להתנהג בצורה בעייתית מבחינה מוסרית, כמו לדוגמה לבקש מצ'אטבוט מדריך לרמות את הבחירות, איך לבנות פצצה, איך לבצע הונאת מס, או אפילו איך להיפטר מגופה.

ממצאים אלה פורסמו במחקר " Universal and Transferable Adversarial Attacks on Aligned Language Models", שבו חוקרים מצאו סיומת שכאשר צורפה למגוון רחב של הנחיות ושאילתות, מגדיל מאוד את הסיכוי שמודלי שפה גדולים (עם קוד פתוח וסגור) יספקו תגובות חיוביות לשאילתות שאחרת היו מסרבים להן.

פרופ' מאט פרדריקסון מ-CMU,שותף למחקר, אמר: "החשש הוא שמודלים אלה ישחקו תפקיד גדול יותר במערכות אוטונומיות הפועלות ללא פיקוח אנושי… ככל שמערכות אוטונומיות הופכות למציאות שלנו, חשוב מאוד להבטיח שתהיה לנו דרך אמינה לעצור את ההשתלטות שלהן על ידי התקפות כאלה".

כאשר ניסו את התאוריה שלהם, פרדריקסון ועמיתיו הצליחו להערים על בארד וליצור תוכן "בעייתי". הם חזרו על הניסוי גם עם קלאוד, לאמה 2 צ'אט, פיתיה ופלקון, ומאוחר יותר הצליחו לעשות זאת אף עם צ'אט GPT שהוא גדול ומתוחכם יותר.

פרדריקסון טוען כי כרגע אין דרך לעצור את הפגיעות וכי השלב הבא הוא לתקן את המודלים. הוא סיים באומרו: "הבנה כיצד לבצע התקפות אלה היא לעתים קרובות הצעד הראשון בפיתוח הגנה חזקה".