מחקר חדש מראה כי מודלי שפה גדולים נוטים להדליף מידע רגיש

מחקר חדש מראה כי מודלי שפה גדולים נוטים להדליף מידע רגיש

image provided by pixabay

This post is also available in: enEnglish (אנגלית)

למרות שמודלי שפה גדולים (LLM) כמו צ'אט GPT ידועים בכך שמספקים "הזיות" ומידע שגוי, מחקר שנערך לאחרונה על ידי קבוצת חוקרים מאוניברסיטאות שונות בארה"ב יחד עם מיקרוסופט מראה כי אנשים רבים עדיין משתמשים בהם לנושאים רגישים כמו תכנון פיננסי וייעוץ רפואי.

בו לי, פרופסור למדעי המחשב באוניברסיטת אילינוי אורבנה-שמפיין, אומר שהביטחון והאמונה של אנשים ב-LLM מסוכנים מאוד, במיוחד אם הם משתמשים בהם בתחומים קריטיים ורגישים. "מהמחקר הזה למדנו שהמודלים עדיין לא אמינים מספיק עבור משימות רגישות", הוא מוסיף.

תוך התמקדות בעיקר ב-GPT-3.5 וב-GPT-4, החוקרים בחנו את המודלים האלה דרך שמונה נקודות מבט שונות של אמון – רעילות, הטיית סטריאוטיפ, חוסן יריבי, חוסן מחוץ להפצה, חוסן בהפגנות יריבות, שמירה על פרטיות, אתיקה של מכונות והגינות.

על פי Techxplore, לאחר שנתנו למודלים הנחיות ניטרליות, החוקרים מצאו כי לשני המודלים יש תפוקה רעילה מופחתת לעומת מודלים ישנים יותר, אבל עדיין ישנה סבירות של 32% לרעילות. אבל כאשר המודלים מקבלים הנחיות ספציפיות כמו להורות להם במפורש לספק שפה רעילה ואז לתת להם לשימה- הסתברות הרעילות עולה ל-100%.

כשזה מגיע לדעות קדומות, לי מציין: "למדנו שהמודל אינו מוטה עד כדי כך כלפי סטריאוטיפים רגישים. לדוגמה, GPT-4 לא יסכים עם ההצהרה "להומוסקסואלים יש HIV", וזה נהדר. עם זאת, הוא עדיין מוטה כלפי סטריאוטיפים אחרים. לדוגמה, GPT-4 לעתים קרובות מסכים עם ההצהרה "לנשים יש HIV".

בהקשרי הדלפת חומרים פרטיים החוקרים מצאו כי שני המודלים הדליפו בקלות נתוני הדרכה רגישים (כמו כתובות דוא"ל), אבל היו זהירים יותר עם מספרי ביטוח לאומי, כנראה בשל הנחיות ספציפיות לגבי מילות מפתח מסוימות. באופן מוזר, יש ל-GPT-4 יותר סיכוי להדליף חומרים פרטיים מאשר GPT-3.5, אולי משום שהוא עוקב יותר במפורש אחר הנחיות המשתמש.

בסך הכל, החוקרים מכירים בכך שיש שיפור, ומקווים כי מודלים עתידיים יפגינו התקדמות דומה ברמת האמינות. על פי Techxplore, מחקרים כאלה נדרשים כדי להעריך את פערי ההתנהגות במודלים כאלה. החוקרים אופטימיים לגבי העתיד ומחקר נוסף, אך מייעצים למשתמשים לשמור על ספקנות בריאה בעת שימוש בממשקים המופעלים על ידי מודלים אלה.