חוקרים שיפרו את היכולת של AI לשחזר ידיים אנושיות

Image by Pexels

This post is also available in: English (אנגלית)

חוקרים ממכון הרובוטיקה של אוניברסיטת קרנגי מלון חשפו את Hamba, מודל חלוצי שנועד להתמודד עם אחת המשימות המאתגרות ביותר בראייה ממוחשבת: שחזור מודלים תלת-ממדיים של ידיים אנושיות מתמונה אחת. פריצת דרך זו, שהוצגה ב-NeurIPS 2024 בוונקובר, מבטיחה התקדמות משמעותית בתחומים שונים, מרובוטיקה ומציאות רבודה לאינטראקציה בין אדם למחשב. מידע על מחקר זה מפורט ב-TechXplore.

המורכבות של שחזור יד טמונה בעובדה שידיים אנושיות לרוב מונחות בפוזיציות מגוונות תוך כדי מגע באובייקטים שונים. Hamba מתגבר על הקשיים הללו בכך שהוא מציע גישה חדשנית שאינה דורשת ידע מוקדם על מפרטי המצלמה או על ההקשר של גוף האדם, אך עדיין משתמשת בתמונה אחת. גמישות זו הופכת אותה למבטיחה במיוחד עבור יישומים בעולם האמיתי.

במקום גישות קונבנציונליות המבוססות על טרנספורמרים, Hamba משתמשת במודלי מרחב המצב מבוססי ממבה. זהו השימוש הראשון אי פעם של טכניקה זו עבור שחזור יד תלת-מימדית, על פי TechXplore. המודל מתאים את תהליך הסריקה המקורי של Mamba על ידי שילוב סריקה דו-כיוונית מונחית גרף. גישה זו ממנפת את העוצמה של רשתות נוירונים (GNNs) כדי לשפר את הדיוק של יחסים מרחביים בין מפרקי כף היד,  מה שמסייע בלכידת פרטים בדיוק יוצא דופן.

הביצועים של Hamba היו פורצי דרך, והגיעו לרמת טעות מיקום ממוצעת לכל קודקוד של רק 5.3 מ"מ במדדים כמו FreiHAND. רמה זו של דיוק השיגה להם את המקום הראשון בשני leaderboards עבור שחזור יד תלת-מימדית. תוצאות אלה מדגישות את ישימות העולם האמיתי של Hamba ואת הפוטנציאל שלה להניע חידושים עתידיים בטכנולוגיה.

Hamba פותחת אפשרויות חדשות עבור אינטראקציה בין אדם למחשב בכך שהיא מאפשרת למכונות לתפוס ולהבין טוב יותר את הידיים האנושיות. יכולות אלה עשויות להיות אבן דרך חשובות לקראת הפיתוח של מערכות בינה מלאכותית כלליות (AGI).

התוכניות העתידיות של הצוות כוללות מחקר הפוטנציאל המלא של Hamba לשחזור מודלים אנושיים בתלת-ממד של גוף מלא, מה שירחיב אפילו יותר את היישומים שלה.

את המחקר המלא ניתן למצוא באתר arXiv.