האם צ'אטבוט יכול לנחש את הנתונים האישיים שלך?

image provided by pixabay

This post is also available in: English (אנגלית)

חוקרים במכון הטכנולוגי של ציריך מודאגים מהיכולת של צ'טבוטים להסיק פרטים אישיים של משתמשים מתוך טקסטים תמימים לכאורה.

החוקרים מצאו כי מודלי שפה גדולים (LLM) יכולים להסיק "מגוון רחב של תכונות אישיות" כמו המין, ההכנסה והמיקום של המשתמש רק מטקסט אותו ניתן להשיג מאתרי מדיה חברתית.

רובין סטאב, דוקטורנט במכון הטכנולוגי של ציריך, שתרם לכתיבת הדו"ח "מעבר לזכרון: הפרת פרטיות באמצעות הסקת מסקנות עם מודלי שפה גדולים", אמר כי מודלי LLM מסוגלים לעקוף את כל מאמציהם של מפתחי הצ'אטבוט להבטיח פרטיות משתמש ולשמור על תקני אתיקה. בגלל שהם מאמנים את המודלים על כמויות אדירות של נתונים מקוונים לא מוגנים, היכולת של המודלים להסיק פרטים אישיים היא מטרידה ביותר.

הוא מסביר: "על ידי 'גירוד' של כל הפוסטים המקוונים של המשתמש והאכלתם למודל שפה גדול מאומן מראש, גורמים זדוניים יכולים להסיק מידע פרטי שהמשתמש מעולם לא התכוון לחשוף".

על פי אתר Techxplore, עם מידע כזה, משתמשים עלולים להיות מטורגטים על ידי קמפיינים פוליטיים או מפרסמים שיודעים עליהם יותר ממה שהיו רוצים, או גרוע מכך – פושעים או מטרידנים עשויים ללמוד כך את זהותם של קורבנות פוטנציאליים.

דוגמה שסופקה על ידי Techxplore מראה מקרה שבו משתמשת Reddit התלוננה על הנסיעות שלה לעבודה (ובכך הצ'אטבוט הצליח להסיק את המיקום שלה), דיברה על קניית פריטים מסוימים (שחשפו את המגדר שלה) ודיברה על תוכנית טלוויזיה ששודרה כשהייתה בתיכון (ובכך חשפה את הגיל שלה).

החוקרים מצאו גם כי צ'אטבוטים יכולים לזהות מאפייני שפה שחושפים הרבה על המשתמש, כאשר שימוש בסלנג ספציפי או ביטוי האופייניים לאזורים מסוימים, המאפשרים לבוט לאתר את המיקום או הזהות של המשתמש. לדוגמה, צ'אטבוט הצליח לצמצם את מיקומו של משתמש מסוים ל-3 מקומות אפשריים, שבהם הביטוי בו השתמש היה פופולרי.

יתר על כן, החוקרים הביעו דאגה רבה לגבי מקרים פוטנציאלים בהם צ'טבוטים זדוניים יעודדו שיחה תמימה לכאורה שתנווט את המשתמשים לתת תשובות תמימות לכאורה שעלולות לחשוף מידע רגיש.