מסגרת בינה מלאכותית חדשה מלמדת רובוטים להשתמש בכלים באמצעות צפייה בסרטונים

Image by Unsplash
Representational image

This post is also available in: English (אנגלית)

צוות מחקר מאוניברסיטת אילינוי באורבנה-שמפיין, בשיתוף פעולה עם אוניברסיטת קולומביה ואוניברסיטת טקסס באוסטין, הציג מערכת חדשה המאפשרת לרובוטים ללמוד כישורי שימוש מורכבים בכלים פשוט באמצעות צפייה בקטעי וידאו. הגישה, שנקראת "Tool-as-Interface" (כלי כממשק), מהווה פריצת דרך לעומת שיטות מסורתיות בתחום הרובוטיקה, אשר לרוב נשענות על תכנות ידני או מערכות חישה מתקדמות ויקרות.

המערכת מאפשרת לרובוטים לצפות בביצוע משימות — כמו נעיצת מסמרים, הגשת אוכל או הפיכת מזון במחבת — ולשחזר אותן תוך שימוש אך ורק בקלט חזותי משתי זוויות מצלמה. השיטה אינה דורשת חליפות לכידת תנועה, כלים מיוחדים או שליטה אנושית מרחוק.

לפי TechXplore, בלב המערכת עומד מודל חזותי בשם MASt3R, אשר ממיר שני פריימים מתוך סרטון רגיל לשחזור תלת־ממדי של הסצנה. באמצעות טכניקה בשם 3D Gaussian Splatting, המערכת יוצרת נקודות מבט סינתטיות נוספות, המאפשרות לרובוט לנתח את המשימה מזוויות שונות.

כדי להתמקד באינטראקציה שבין הכלי לסביבתו, הדמות האנושית נמחקת מהתמונה באמצעות מודל סגמנטציה בשם Grounded-SAM.  נקודת המבט המרוכזת בכלי בלבד מאפשרת למערכת להבין את תפקודו ותנועתו, במקום פשוט לחקות את הפעולות האנושיות. כתוצאה מכך, ניתן להעביר את הכישורים הנלמדים בקלות רבה יותר לפלטפורמות רובוטיות שונות, גם אם יש להן מבנה חומרה שונה.

החוקרים בחנו את השיטה בחמש משימות שונות, כולל נעיצת מסמרים, הגשת כדורי בשר ובעיטת כדור. הרובוטים ביצעו את הפעולות בהצלחה גבוהה, תוך שיפור של 71% ביחס לאימון מסורתי המשתמש בטלאופרציה, וקיצור זמן האימון ב-77%.

עם זאת, המערכת עדיין אינה חפה ממגבלות. בשלב זה, היא מניחה שהכלים מקובעים לזרוע הרובוטית, ולעיתים טועה בהערכות מיקום בעת שחזור זוויות מצלמה. אף על פי כן, הצוות רואה בכך צעד משמעותי לקראת האפשרות ללמד רובוטים משימות חדשות באמצעות תוכן וידאו זמין ברשת, כגון מדריכים מקוונים או סרטונים ביתיים.

המחקר זכה בפרס המאמר המצטיין בכנס ICRA 2025 וזמין לקריאה מוקדמת באתר arXiv.