הזרקת נתונים פיקטיבית יכולה להגן מפני הפרת זכויות יוצרים באימון מודלי שפה

Image provided by Pixabay

This post is also available in: English (אנגלית)

בינה מלאכותית הפכה להיות כוח מהפכני בשנים האחרונות, ונראה שזאת רק ההתחלה. עם השימוש הגובר במודלים של בינה מלאכותית גנרטיבית כמו צ'אט GPT, דבר שהיה בעבר נחלתן הבלעדית של חברות טכנולוגיה מתקדמות הפך כעת לכלי יומיומי המשמש את תלמידי בית ספר לשיפור העבודה שלהם, או על ידי זוגות המנסים ליצור את התכנון המושלם לטיול הבא שלהם בחו"ל. עם זאת, על מנת להגיע לעוצמה הזאת, נדרשת כמות אדירה של דאטא עליה מודל הAI מאומן. חלק מהדאטא הזאת מוגנת בזכויות יוצרים, ומשמשת את המפתחים ללא אישור.

על מנת לצמצם בעיה זו, חוקרים מאימפריאל קולג' בלונדון הציעו טכניקה שיכולה לזהות תוכן המוגן בזכויות יוצרים המשמש לאימון AI. מנגנון זה מפורט במאמר שפורסם ב-arXiv. על פי TechXplore, הצוות לקח השראה מיצרני מפות מתחילת המאה ה-20, אשר הכניסו בכוונה מקומות פיקטיביים למפות שלהם כדי לזהות העתקות. בהתאם לכך, הם הציעו להוסיף "מלכודות זכויות יוצרים" לטקסט המקורי, כך שניתן יהיה לזהות אותן מאוחר יותר כאשר הן מופיעות בפלט של המודל המאומן, מה שיוכיח שימוש בלתי חוקי בדאטא. פתרון זה בעיקר מתאים עבור תוכן אינטרנטי, בו ניתן להסתיר מהמשתמש את מלכודת זכויות היוצרים אבל עדיין סביר שיאסף ע"י גורף הנתונים.

עם זאת, הצוות מסביר שזה עדיין אפשרי עבור מתכנתים למנוע שיגלו אותם בכך שיפתחו דרכים למחוק את אותן מלכודות זכויות יוצרים. לכן, הם מציעים ליוצרי תוכן להכניס מלכודות מגוונות ולהשתיל אותן על גבי מאמרים רבים. הם מסבירים כי הסרה של כל המלכודות עשויה להוות אתגר משמעותי עבור המפתחים, דבר שיקל על היוצרים לראות מתי נעשה שימוש בנתונים שלהם ללא רשות.

תיאוריית "ערי הנייר" הזו קיבלה תוקף בניסוי מוצלח שהחוקרים ערכו יחד עם צוות בצרפת, שכלל פיתוח LLM משלהם והזרקת מלכודות זכויות יוצרים רבות לתוכן לאימון שלהם.

החוקרים מקווים כי מחקר זה יעודד מפתחי LLM להיות שקופים יותר עם הנתונים שהם משתמשים בו לאימון המודלים, משהו שהם כרגע מהססים לעשות. הם מאמינים כי בדרך זו, מחברים שלא ביודעין תורמים להכשרת מודלי שפה יפוצו כראוי על עבודתם המקורית.