This post is also available in:
English (אנגלית)
מחקר חדש של MIT חשף פגם בסיסי באופן שבו מודלי שפה-ראייה (VLMs) מפרשים מידע: הם לא מצליחים להבין מילות שלילה. חוקרים מצאו כי כאשר מודלים נדרשים לחבר תמונות לתיאורים טקסטואליים, הם מתעלמים לעתים קרובות ממונחי שלילה כמו "לא", "איננו" או "בלי", מה שמוביל לפרשנות שגויה רצינית במשימות בעולם האמיתי.
השימוש ב-VLMs נפוץ ביישומי בינה מלאכותית שמחברים תמונות עם שפה, כגון חיפוש, כתיבת תיאור ומערכות קבלת החלטות אוטומטיות. עם זאת, המחקר – שפורסם בשרת ההדפסה המוקדמת arXiv – מראה כי מודלים אלה מתייחסים לעתים קרובות להצהרות כמו "רחוב ללא מכוניות" כאילו הם פשוט "רחוב עם מכוניות", מה שמערער את הדיוק ואת האמון במקרים קריטיים.
על פי TechXplore, החוקרים תכננו שתי משימות ממוקדות כדי להבין טוב יותר כיצד מודלי שפה-ראייה מתמודדים עם שלילה. בראשון, הם השתמשו במודל שפה גדול כדי ליצור תיאורים חדשים עבור תמונות קיימות, שספציפית כוללים הפניות לאובייקטים שאינם נוכחים בזירה. המודלים התבקשו למצוא תמונות בהתבסס על תיאורים אלה – ונראה כי יכולת זו הייתה חסרה להם במידה רבה, עם ירידה משמעותית בביצועי השליפה בהשוואה לתיאורים סטנדרטיים. המשימה השנייה אתגרה מודלים עם שאלות רב-ברירה, כאשר כל תמונה הוצמדה למספר כיתובים דומים שנבדלו רק בכך שהיה בהם שימוש עדין בשלילה. המודלים לא הצליחו לבחור את התיאור הנכון, וגם הביצועים הטובים ביותר בקושי הגיעו לרמה מעבר למזל. בדיקות אלה חשפו דפוס עקבי: כאשר שלילה מעורבת, מערכות שפה-ראייה נוכחיות נוטות להתעלם ממנה לחלוטין.
שורש הבעיה טמון בדרך בה מערכות אלה מאומנות. מערכי נתונים המשמשים ללימוד VLMs מכילים באופן גורף תיאורים חיוביים, המתארים רק את מה שקיים. כתוצאה מכך, המודלים אף פעם לא לומדים איך להתמודד עם שפה שמגדירה מה לא קיים.
כדי לטפל בכך, החוקרים יצרו מערך נתונים חדש של 10 מיליון צמדי תמונות-טקסט הכוללים שלילה, תוך שימוש במודל שפה גדול לשכתב כיתובים עם הפניות לאובייקטים שלא נכללו. כיוונון עדין של VLMs קיימים עם מערך נתונים זה הוביל לשיפור משמעותי בביצועים: שיפור של כ-10% בשליפת תמונות ועלייה של 30% ברמת הדיוק במענה על שאלות רב-ברירה.
למרות שהתיקון אינו פותר את הבעיה במלואה, החוקרים רואים בו נקודת התחלה. עבור תעשיות המשתמשות ב-VLMs בהקשרים עתירי סיכונים – כגון אבחון רפואי או בקרת איכות – הממצאים מדגישים את הצורך בהערכת מודלים קפדנית ובדיקות ספציפיות לתחום לפני הפריסה.