This post is also available in:
English (אנגלית)
מחקר חדש של חוקרים ממטא, אנבידיה, גוגל ואוניברסיטת קורנל שופך אור על האופן שבו מודלים של שפת בינה מלאכותית מאחסנים ומשתמשים במידע – והממצאים שלו מאתגרים כמה הנחות נפוצות. על פי המחקר, למרות יכולות יצירת הטקסט העוצמתיות שלהם, מודלי שפה (LLM) מאחסנים רק 3.6 ביטים של מידע לכל פרמטר. זה בקושי מספיק כדי לייצג 12 אפשרויות שונות – רחוק מהזיכרון הנדרש כדי לשמור על מילים מדויקות או משפטים מלאים.
במקום לשנן תוכן באופן ישיר, מודלים אלה פועלים על ידי למידה של דפוסים סטטיסטיים ושיחזור תגובות מכמות אדירה של נתונים מפורקים ומבוזרים. התוצאה היא בינה מלאכותית שלא מאחזרת או זוכרת טקסט כמו מסד נתונים. במקום זאת, היא יוצרת שפה סבירה המבוססת על קורלציות שהיא לומדת בין מילים, מושגים והקשרים.
זה עוזר להבהיר דיון ארוך שנים – אם מודלי שפה פשוט "מקיאים" נתונים עליהם הם אומנו. ממצאי המחקר מצביעים על כך שהתשובה היא לרוב לא. מילים, ביטויים ורעיונות מקודדים על פני אינספור פרמטרים, כלומר פלט אינו נמשך מהזיכרון, אלא נבנה מחדש ממבנים שהמודל למד, וכל פיסות המידע הקטנות מתחברות יחד ליצירת תשובה אחת.
באופן מעניין, ככל שמודל מאומן על יותר נתונים, כך פחות סביר שהוא יזכור פיסת מידע מסוימת. ככל שבסיס הידע של המודל גדל, נקודות מידע בודדות מדוללות על פני רשת רחבה יותר, מה שמפחית את הסיכוי לשינון מדויק. זהו פרט קריטי בדיונים הנוכחיים בנושא פרטיות נתונים וזכויות קניין רוחני.
כדי לבחון את השינון, החוקרים הכשירו מודלים על נתונים חסרי משמעות וחסרי תבנית – מה שלמעשה "אילץ" אותם לשנן. גם במקרים אלה, המודלים לא יכלו לחרוג ממגבלת 3.6 סיביות לפרמטר, ובכך חיזקו את האופי המבוזר של מערכת האחסון שלהם.
על פי Cybernews, לגישה זו לזיכרון יש השלכות משמעותיות. עבור פעילי פרטיות, זה אומר שמידע ייחודי או אישי פחות צפוי להיות משוכפל במדויק על ידי מודלים גדולים. עבור יוצרי תוכן ומומחים משפטיים, הוא ממסגר מחדש את האופן שבו אנחנו רואים תוכן שנוצר על ידי בינה מלאכותית וכמה הוא מקורי.
בסופו של דבר, המחקר מעמיק את ההבנה הציבורית לגבי כיצד פועלות מערכות בינה מלאכותית גנרטיביות – ועשוי לעזור לעצב רגולציה עתידית, תקני בטיחות וקווים מנחים אתיים להכשרה ופריסה של בינה מלאכותית.