This post is also available in:
English (אנגלית)
בזמן בו גדל הביקוש למודלי שפה (LLMs) מהירים ובעלי ביצועים גבוהים יותר, חוקרים הציגו גישה חדשה שמפחיתה משמעותית את זמני התגובה – מבלי להתפשר על איכות הפלט. השיטה, שפותחה על ידי מעבדת CSAIL של MIT בשיתוף עם Google, מאפשרת למודלים לנהל בעצמם את תהליך הפקת התשובה, באמצעות מערכת בשם Parallel Structure Annotation או בקיצור: PASTA.
בלב השיטה ניצב פתרון לבעיה טכנית מוכרת: מודלים שפתיים מסורתיים מפיקים תגובות צעד אחר צעד, כאשר כל טוקן (יחידת טקסט) תלוי בקודמו. שיטה זו אמנם מדויקת, אך מובילה לעיכובים משמעותיים במקרים של פקודות מורכבות או ארוכות. ניסיונות קודמים להאיץ את התהליך, כגון פענוח מקבילי ספקולטיבי או תחבירי, נשענו על חוקים נוקשים ונכשלו כאשר הפלט חרג ממבנים צפויים.
על פי TechXplore, שיטת PASTA נוקטת בגישה שונה: היא מאמנת את המודל לזהות חלקים בתגובה שניתן לעבד במקביל. מקטעים אלו מסומנים בעזרת שפת סימון ייעודית – PASTA-LANG – המשמשת כמעין הנחיה פנימית לחלוקת העבודה בשלב ההסקה (inference). מפרש (interpreter) קורא את הסימונים ומורה למודל להפיק את אותם חלקים בו זמנית, וכך מתאפשר תהליך מקבילי.
הגישה, שנקראת פענוח אסינכרוני נלמד (Learned Asynchronous Decoding), מעניקה למודל שליטה על אסטרטגיית ההפקה שלו. בניסויים שנערכו באמצעות מדד AlpacaEval, המערכת השיגה כמעט פי שניים מהירות לעומת שיטות פענוח רגילות – עם ירידה מינימלית באיכות הפלט, שנעה בין שיפור של 2% לירידה של 7% בלבד.
הכשרת המודל כללה שני שלבים של כוונון עדין (fine-tuning), מתוך מטרה לא רק להאיץ את תהליך ההפקה, אלא גם לשמר – ואף לשפר – את העקביות והרלוונטיות של הטקסט.
באמצעות העברת השליטה בהחלטות הפענוח המקבילי אל תוך המודל עצמו, PASTA פותחת את הדלת למודלים מהירים ויעילים יותר, המנצלים טוב יותר את חומרת המחשוב המודרנית. בנוסף, השיטה עשויה לצמצם את צריכת המשאבים הנדרשת לביצוע חיזויים בקנה מידה גדול – מה שיכול להפוך את הטכנולוגיה הזו לנגישה וזולה יותר, הן בשוק המסחרי והן באקדמיה.
המחקר פורסם בפלטפורמת המחקר הפתוחה arXiv.