פריצת דרך בשיפור דיוק הבינה המלאכותית במשימות מיוחדות

This post is also available in: English (אנגלית)

שיטה חדשה לכיול מדויק (fine tuning) של מודלי שפה גדולים (LLMs) הציגה תוצאות מבטיחות בשיפור הביצועים על פני מגוון רחב של משימות – מבלי לדרוש כוח חישוב נוסף. הטכניקה, המכונה WeGeFT (ראשי תיבות של Weight-Generative Fine-Tuning) שפותחה על ידי חוקרים מאוניברסיטת קרוליינה הצפונית, בונה על גישות קיימות כדי לזקק כיצד המודלים מתאימים את עצמם למשימות ספציפיות לאחר שלב האימון המוקדם.

מודלי שפה מאומנים בדרך כלל על כמויות עצומות של נתונים כלליים, מה שמאפשר להם להפיק תגובות קוהרנטיות על ידי חיזוי המילה הבאה בסדרה. בעוד שלשלב האימון המוקדם יש תועלת באינטראקציות כלליות, הוא אינו מספק כאשר המודל מתבקש לבצע משימות ממוקדות כמו פתרון בעיות מתמטיות, כתיבת קוד או פרשנות קלט חזותי. כדי לשפר את הביצועים בתחומים אלה, המודלים בדרך כלל נדרשים לכיול מדויק – אך בשל גודלם, אימון מחדש של המודל מאפס אינו פרקטי לרוב.

בשנת 2022, טכניקת LoRA (Low-Rank Adaptation) אומצה נרחבות בשל יכולתה לכייל מודלים גדולים בצורה יעילה. LoRA מזהה קבוצת פרמטרים פנימיים קטנה שניתן להתאים אותה כדי לשפר את הביצועים במשימות ספציפיות, ומונעת את הצורך בעדכון כל המודל.

לפי TechXplore, WeGeFT משפר את LoRA על ידי הוספת מנגנון חדש המעריך אילו חלקים במודל דורשים התאמה אמיתית ואילו כבר מכילים ידע שימושי. על ידי התמקדות בפרמטרים הלא מוכרים או החדשים במהלך הכיול, WeGeFT מגדיל את הביצועים מבלי להעמיס על המערכת.

במבחנים מעשיים, WeGeFT השיג תוצאות זהות או טובות יותר מ-LoRA וגרסאות שונות שלה השונים במשימות כמו הסקת מסקנות אריתמטיות, מעקב אחר הוראות, כתיבת קוד ואפילו הבנת תכנים חזותיים. התוצאות מצביעות על כך שהשיטה עשויה להקל על ההתאמה של LLMs למקרים שימושיים מותאמים, במיוחד בסביבות שבהן משאבי החישוב מוגבלים.

החוקרים שפיתחו את WeGeFT גם בודקים כיצד הטכניקה יכולה לעזור לזהות ולכוון חלקים במודלים הקשורים לתוצאות מזיקות או מוטות – נתיב פוטנציאלי לשיפור ההתאמה והבטיחות של המודלים.

המחקר המלא יוצג בכנס הבינלאומי ללמידת מכונה (ICML) ב-17 ביולי בוונקובר.