השינוי הנסתר באופן שבו בינה מלאכותית לומדת שפה

Image by Unsplash

This post is also available in: English (אנגלית)

מחקר חדש שופך אור על אחד ההיבטים המסתוריים יותר של בינה מלאכותית מודרנית: כיצד מודלים שפתיים מחליטים על מה להתמקד בעת עיבוד טקסט. החוקרים גילו כי מערכות מבוססות טרנספורמר—כמו אלו שמפעילות את ChatGPT, Gemini ופלטפורמות שיחה אחרות, עוברות שינוי פתאומי וחד באסטרטגיית הלמידה שלהן, בהתאם לכמות המידע שהוזנה להן במהלך האימון.

המחקר, שפורסם בכתב העת Journal of Statistical Mechanics: Theory and Experiment תחת הכותרת: "A Phase Transition between Positional and Semantic Learning in a Solvable Model of Dot-Product Attention", בוחן כיצד רשתות נוירונים מבוססות מנגנון קשב (Attention) משתנות לאורך זמן האימון. על פיTechXplore , כאשר המודל נחשף לכמות מוגבלת של טקסטים, הוא נוטה להסתמך על מיקום המילים במשפט כדי להבין יחסים דקדוקיים – כמו ההנחה שבאנגלית הנושא מופיע לפני הפועל.

אך לאחר שהמודל נחשף לנפח אימון מסוים, מתרחש מעבר חד: הוא מתחיל להעדיף משמעות סמנטית על פני מיקום. במקום להסתמך על היכן מופיעות מילים, והוא מבין את משמעותן בהקשר רחב יותר של המשפט.

המחקר מתבסס על גרסה פשוטה של מנגנון הקשב העצמי (self-attention), אחד המרכיבים המרכזיים במודלי שפה מסוג טרנספורמר, המאפשר לרשת להעריך את החשיבות של כל מילה ביחס לשאר המילים ברצף. מנגנון זה הוא שמאפשר למודלים להבין קשרים מורכבים בין מילים, החל מהשלמה אוטומטית ועד שיחה בשפה טבעית.

מה שמייחד את הגילוי הוא לא רק עצם השינוי באסטרטגיה, אלא האופן הפתאומי שבו הוא מתרחש. מתחת לסף מסוים, המודל נשען אך ורק על מידע מיקומי. ברגע שהוא חוצה את הסף, הוא עובר בבת אחת להבנה סמנטית—ללא שלב ביניים מדורג.

למרות שהמודל שנבדק במחקר פשוט בהרבה ממערכות מסחריות מתקדמות, המסקנות עשויות להשפיע רבות על תחום ה-AI. ההבנה מתי וכיצד מודלים לומדים בצורה שונה עשויה לאפשר לחוקרים לשלוט בתהליכי הלמידה, להפוך את המודלים ליעילים יותר, קלים יותר להבנה, ואמינים יותר.