This post is also available in:
English (אנגלית)
מודלים של ראייה־שפתית (VLMs) הולכים ומשתפרים בזיהוי עצמים כלליים כמו "כלב" או "מכונית", אך הם עדיין מתקשים כאשר נדרש מהם להבחין בין פריטים דומים מאוד – למשל, לזהות כלב מסוים בתוך פארק צפוף. אך, שיטת אימון חדשה עשויה לשנות את המצב.
חוקרים פיתחו גישה חדשנית שמשפרת את יכולת המודלים לאתר ולזהות עצמים מותאמים אישית בסביבות שונות. במקום להסתמך על קטגוריות כלליות, השיטה מאמנת את המודלים להבין הקשר על ידי חשיפתם לרצפים שבהם אותו עצם מופיע בסביבות משתנות.
הצוות השתמש בנתוני מעקב קיימים מווידאו כדי ליצור מערך נתונים שמתמקד בזיהוי עקבי של עצמים. כל רצף כולל פריימים המציגים את אותו פריט – כמו בעל חיים או חפץ אישי העובר בין סצנות שונות. על ידי שימוש במספר מופעים של אותו העצם, המודל לומד להתמקד בתכונות הקשריות (contextual features) במקום להסתמך על אסוציאציות שנלמדו מראש.
כדי למנוע מהמודל "לרמות" באמצעות זיהוי מבוסס קטגוריות (למשל, לתייג תמיד חיה עם פסים כ"נמר"), הוחלפו שמות העצמים בכינויים גנריים כמו "צ׳ארלי" או "רובר". כך, המערכת נאלצת לפרש את המידע הוויזואלי בכל הקשר בנפרד, במקום להסתמך על ידע קודם.
על פי דיווח של TechXplore, מבדקים הראו שמודלים שאומנו בשיטה זו שיפרו את הדיוק בזיהוי מקומי של עצמים מותאמים אישית ב־12% בממוצע, כאשר תצורות מסוימות הגיעו לשיפור של עד 21% – וכל זאת מבלי לפגוע בביצועים במשימות כלליות.
לשיטה זו יישומים רבים ומגוונים; היא עשויה לסייע למשתמשים עם לקויות ראייה באיתור חפצים אישיים, לתמוך במעקב אקולוגי אחר בעלי חיים ספציפיים, ואף לשפר מערכות רובוטיקה ומציאות רבודה באמצעות מעקב מדויק יותר אחר עצמים בסביבות משתנות.
על ידי הגדרת הבעיה של זיהוי עצמים מותאמים אישית כאתגר של למידת הקשר, ומתן שיטה יעילה להפקת נתונים בקנה מידה רחב, מציעה הגישה פתרון לפער ידוע ביכולות של מודלים מסוגVLM , ובכך סוללת את הדרך למערכות בינה מלאכותית מסתגלות ומותאמות יותר.
המחקר פורסם כאן.
























