הקשר בין הזכות להישכח, מודלי שפה גדולים ובינה מלאכותית

הקשר בין הזכות להישכח, מודלי שפה גדולים ובינה מלאכותית

image provided by pixabay

This post is also available in: enEnglish (אנגלית)

פרטיות באינטרנט היוותה בעיה עבור ממשלות ברחבי העולם במשך שנים, במיוחד אם ניסו ללמד את האינטרנט הזוכר נתונים לנצח איך "לשכוח" נתונים מזיקים, מביכים, או לא נכונים.

לאחרונה נעשו מאמצים לספק עזרה לאנשים במקרים בהם מידע מזיק אודותיהם עולה שוב ושוב בחיפושים באינטרנט.

על פי TechXplore, תרחיש הדגל של התופעה הזאת היה מריו קוסטג'ה גונזלס. בעיות כספיות שהיו לו בעבר הופיעו באופן נרחב כאשר חיפשו את שמו באינטרנט, והוא תבע את גוגל בבקשה להסיר מידע פרטי שלו שכבר ישן ואינו רלוונטי. בשנת 2014 בית המשפט האירופי לצדק תמך בפנייתו של גונזלס ואילץ מנועי חיפוש כמו גוגל להסיר קישורים לנתונים הפוגעים.

חוקים אלה נודעו בשם Right to Be Forgotten (RTBF), או "הזכות להישכח".

לאחרונה עלו דאגות הקשורות לתעשייה אחרת שיכולה להעלות בלי סוף נתונים ישנים ומזיקים. חוקרים מזהירים כי שימוש במודלי שפה גדולים (LLM) מסתכן בהפרה של חוקים אלה.

מומחים וחוקרים טוענים כי גם בעוד חוקי הזכות להישכח מתמקדים במנועי חיפוש, גם מודלי שפה גדולים צריכים להיכלל ברגולציות הפרטיות.

דאואן ז'אנג, מחבר המאמר "הזכות להישכח בעידן של מודלי שפה גדולים: השלכות, אתגרים ופתרונות" אמר – "בהשוואה לגישת האינדקסים המשמשת את מנועי החיפוש, מודלי שפה גדולים מאחסנים ומעבדים מידע בצורה שונה לחלוטין".

ז'אנג מסביר כי 60% מנתוני הלימוד של מודלים כמו ChatGPT-3 משכו מידע ממשאבים ציבוריים, וכתוצאה מכך "מודלי שפה גדולים עשויים לשנן נתונים אישיים, ונתונים אלה יכולים להופיע בפלט שלהם".

וזה לא הכל – הרבה ממקורות המידע של בינה מלאכותית נשארים ברובן לא ידועים למשתמשים. סוג זה של סיכון לפרטיות מפר חוקים במדינות שונות ברחבי העולם, וחוקרים טוענים שחוקים אלה צריכים לחול גם על מודלי שפה גדולים.

"הטכנולוגיה התפתחה במהירות, והובילה להופעתם של אתגרים חדשים בתחום המשפט, אבל העיקרון של פרטיות כזכות אנושית בסיסית לא צריך להשתנות, וזכויות של אנשים לא צריך להיפגע כתוצאה של התקדמות טכנולוגית", כך אמר ז'אנג.