מחקר מגלה סיכון נסתר באימון-יתר של מודלי בינה המלאכותית

Image by Unsplash

This post is also available in: English (אנגלית)

מחקר אקדמי שנערך לאחרונה חשף מגבלה קריטית באימון מודלי שפה גדולים (LLM), מה שמעלה שאלות חדשות עבור מפתחים בתחום הבינה המלאכותית. המחקר, שנערך על ידי צוות של מדענים מאוניברסיטאות מובילות בארה"ב, כולל קרנגי מלון, סטנפורד, הרווארד ופרינסטון, מגלה כי אימון מופרז של LLM יכול למעשה לפגוע ביכולתו לעבור תהליך fine-tuning למשימות ספציפיות – תוצאה שהחוקרים כינו "catastrophic overtraining".

בניגוד לאמונה הרווחת כי מודלים משתפרים ככל שהם מאומנים עם יותר ויותר נתונים, המחקר מציג ראיות כי קיימת נקודת שבירה. החוקרים השתמשו במודל הקוד הפתוח OLMo-1B, ואימנו שתי גרסאות שלו – אחת עם 2.3 טריליון טוקנים ואחת עם 3 טריליון. באופן מפתיע, המודל שאומן יותר הראה ביצועים גרועים בעד 3% מהמודל שאומן פחות במספר אמות מידה סטנדרטיות, כולל ARC ו- AlpacaEva.

ניתוח נוסף הצביע על תופעה שהחוקרים מכנים "progressive sensitivity". על פי הממצאים שלהם, כאשר מודלים נחשפים לנפח גדול יותר של נתוני אימון, הם הופכים להיות פחות עמידים ל-fine tuning לאחר מכן, מה שמראה כי הם יכולים לשחוק שלא במתכוון את העליות הקודמות בביצועים.

כדי לאמת את התאוריה שלהם, הצוות הציג רעש גאוסי למודלים והבחין בירידה דומה ביעילות. התוצאות היו עקביות: לאחר סף מסוים – המכונה "נקודת ההטיה" – המשך האימון לא רק מניב תשואות פחות טובות, אלא יכול לערער באופן אקטיבי את ביצועי המודל.

תגלית זו יכולה לעצב מחדש את הגישות הנוכחיות לפיתוח מודלים. במקום להניח שיותר נתונים תמיד מובילים למודלים חכמים יותר, מפתחי בינה מלאכותית יצטרכו לחשוב מחדש על אסטרטגיות אימון ולאמץ שיטות שימנעו את מהגעה לנקודת ההטיה או שיעכבו את הופעתה.

ככל שהשימוש במודלי שפה מתרחב למגזרים כמו אבטחת סייבר, מודיעין ובטחון, ההבנה כיצד לשמור על הדיוק שלהם הופכת לחיונית יותר ויותר. המחקר מזכיר לנו, שבתחום הבינה המלאכותית, יותר לא תמיד אומר יותר טוב.

ניתן למצוא את המאמר ב-arXiv.