This post is also available in: English (אנגלית)
למרות ההתקדמות המדהימה בבינה מלאכותית גנראטיבית ובמודלי שפה, מחקר שנערך לאחרונה מדגיש את המגבלות המשמעותיות של מודלי שפה גדולים כמו ChatGPT, בפיתוח מודלים מנטליים מדויקים של העולם, מה שמרמז על כך שלמערכות אלה עדיין יש הרבה מה ללמוד לפני שניתן לסמוך עליהם ביישומים בעולם האמיתי.
המחקר, שנערך על ידי חוקרים מאוניברסיטת הרווארד, MIT, אוניברסיטת שיקגו ואוניברסיטת קורנל, מגלה כי בעוד שמודלי שפה יכולים לבצע היטב משימות מבוקרות, הם נכשלים כאשר מתמודדים עם שינויים קלים אפילו או מצבים בלתי צפויים.
מודלי בינה מלאכותית הראו יכולות מרשימות – יצירת טקסט, פתרון בעיות, ואפילו מתן הוראות ניווט. עם זאת, המחקר מצביע על כך שמודלים אלה אינם "מבינים" את המערכות איתן הם פועלים. כדי לבדוק זאת, החוקרים בדקו כמה טוב מודל שפה יכול לתת הוראות נהיגה בעיר ניו יורק. אף על פי שהביצועים שלו היו טובים בהתחלה, הצגת שינויים פשוטים – כמו סגירת כבישים או מעקפים – הביאה לירידה משמעותית ברמת הדיוק.
החוקרים גילו כי המודל יצר מפה פנימית שכללה "רחובות שאינם קיימים" וקשרים שגויים. ממצא זה מצביע על כך שמודלי שפה מסתמכים על דפוסים בנתונים במקום ליצור מודל עולמי מדויק וקוהרנטי.
כדי לחקור את הנושא הזה עוד יותר, החוקרים פיתחו מדדי הערכה חדשים כדי לבדוק אם מודלי השפה יצרו מודלים עולמיים מדויקים. הם התמקדו בשתי משימות דטרמיניסטיות: ניווט ברחובות ניו יורק ומשחק במשחק אותלו. התוצאות הראו כי אמנם המודלים יכלו ליצור מהלכים תקפים במשחק, אך הם לא הצליחו להראות הבנה בסיסית של הכללים.
מעניין לציין כי החוקרים מצאו שדווקא מודלי השפה אשר עשו בחירות אקראיות היו לפעמים מדויקים יותר ביצירת מודלים בעולם מאשר אלה שעקבו אחרי דפוס בנתונים. זה מצביע על כך ששיטות נוכחיות של אימון מודלי שפה, המבוססות על חיזוי שפה, אינן מספיקות לפיתוח הבנה אמיתית של העולם.
ממצאים אלה מדאיגים בהקשרי יישומים המסתמכים על מודלי בינה מלאכותית כדי לקבל החלטות בסביבות דינמיות, כגון כלי רכב אוטונומיים או מערכות אבחון רפואיות. אם מודלי השפה ביישומים אלה לא יצליחו להסתגל למצבים חדשים או משתנים, ההשלכות עלולות להיות חמורות.
החוקרים קוראים לקהילת הבינה המלאכותית לחשוב מחדש על האופן שבו מודלי שפה מוערכים ומפותחים. בהמשך, הצוות מתכנן ליישם את מדדי ההערכה החדשים האלה לבעיות בעולם האמיתי כדי לדחוף את הגבולות של היכולות המעשיות של הבינה המלאכותית.