This post is also available in: enEnglish (אנגלית)

משתמשים במוצרים של OpenAI? ייתכן כי הנתונים האישיים שלכם לא בטוחים כפי שחשבתם- חוקרי גוגל פרסמו לאחרונה מחקר בו מצאו שהם יכולים להשתמש במילות מפתח כדי לגרום לצ'אט GPT לגשת ולשחרר נתוני "אימון" שלא נועדו לגילוי ציבורי.

השימוש ההולך וגדל בצ'אט GPT נשען בחלקו על איסוף של יותר מ-300 מיליארד פיסות מידע שנכרו ממקורות מקוונים שונים. למרות שחברת OpenAI נקטה צעדים רבים כדי להגן על פרטיות הנתונים, צ'אטים ופרסומים יומיומיים משאירים מאגר עצום של נתונים (רובם אישיים) שאינם מיועדים להפצה נרחבת.

החוקרים אמרו במאמר כי הצליחו לחלץ מעל ל-10,000 דוגמאות אימון ייחודי המצוטטות בשלמותן מתוך צ'אט GPT תוך שימוש בשאילתות בשווי של $200 בלבד, והוסיפו כי לפי האקסטרפולציה שלהם לתקציבים גדולים יותר, גורמים זדוניים עם יכולות כלכליות וטכנולוגיות יכולים לחלץ כמויות נתונים גדולת בהרבה.

הם הוסיפו כי הצליחו להשיג שמות, מספרי טלפון וכתובות של אנשים וחברות על ידי הזנת פקודות "אבסורד" לתוך צ'אט GPT שהובילו למצב של "תקלה".

לפי אתר Techxplore, החוקרים ביקשו מצ'אט GPT לחזור על המילה "poem" עד אינסוף, מה שאילץ את המודל להגיע מעבר להליכי ההכשרה שלו ו-"ליפול בחזרה למטרה המקורית של מודל השפה עליו נבנה " ולהתחבר לפרטים מוגבלי גישה בנתוני האימון שלה. הם גם הגיעו לתוצאה דומה על ידי בקשה לחזור עד אינסוף על המילה "company", והצליחו לאחזר את כתובת הדוא"ל ומספר הטלפון של משרד עורכי דין אמריקאי.

בתגובה לחשיפה אפשרית של נתונים בלתי מורשים, מספר חברות הטילו מוקדם יותר השנה מספר מגבלות על השימוש של עובדים במודלים של שפה גדולה. חששות גוברים לגבי פריצות לנתונים גרמו לחברת OpenAI להוסיף תכונה ש"מכבה" את היסטוריית הצ'אט, ומוסיפה שכבת הגנה לנתונים רגישים. הבעיה היא שהנתונים האלה נשמרים עדיין במשך 30 ימים לפני שנמחקים לצמיתות.

לסיכום, החוקרים הגדירו את ממצאיהם כ-"מדאיגים" ואמרו כי הדו"ח שלהם צריך לשמש "סיפור אזהרה עבור אותם מודלים עתידיים להכשרה", והזהירו כי המשתמשים "לא צריכים להכשיר ולפרוס מודלי שפה גדולים עבור יישומים עם נתונים פרטיים ורגישים ללא אמצעי הגנה קיצוניים".