פותח אלגוריתם חדש לאימון רובוטים בסיוע אנושי

פותח אלגוריתם חדש לאימון רובוטים בסיוע אנושי

שיתוף פעולה בין רובוטים ובני אדם

This post is also available in: enEnglish (אנגלית)

חוקרים במעבדת המחקר של צבא היבשה האמריקאי ושל אוניברסיטת טקסס באוסטין פיתחו טכניקות חדשות בן ישתמשו רובוטים או תוכנות מחשב על מנת ללמוד משימות על ידי תקשורת עם מדריך אנושי.

המחקר מראה אדם המעניק משוב בזמן אמת בצורת ביקורת לסוכן – רובוט או מחשב.

הרעיון הוצג לראשונה בתור אימון סוכן באופן ידני באמצעות חיזוק הערכתי, או TAMER, על ידי ד"ר פיטר סטון, פרופסור באוניברסיטת טקסס.

חוקרי המעבדה הצבאית ואוניברסיטת טקסס המשיכו לחקור הלאה מיסודות מחקר אלו על מנת לפתח אלגוריתם בשם TAMER עמוק, שמשתמש בלמידה עמוקה – סוג של למידה חישובית בה האלגוריתמים שואבים השראה באופן רופף מהמוח האנושי – כדי ללמוד משימות על ידי צפייה בסרטונים ביחד עם מדריך אנושי.

המדריך האנושי נותן אז לסוכן הרובוטי ביקורת, כמו 'עבודה טובה' או 'עבודה גרועה', באותה דרך שמלמדים כלב טריק חדש.

כיום, רובוטים רבים המשתמשים בבינה מלאכותית מחויבים לתקשר עם סביבתם זמן ארוך יחסית על מנת ללמוד איך לבצע משימה באופן אופטימלי. טעויות הקורות תוך כדי התהליך עלולות להיות חמורות, כמו לדוגמה סוכן רובוטי שנופל מצוק.

משוב אנושי יוכל לסייע להימנע מטעויות פוטנציאליות כאלו וגם להאיץ א תהליך הלמידה, כך אמר החוקר הצבאי ד"ר גארט וורנל.

“צבא העתיד יכלול חיילים וחברי צוות אוטונומיים שעובדים יחד כצוות", אמר וורנל. "בעוד בני אדם וסוכנים אוטונומיים יכולים שניהם להיות מאומנים לפני ביצוע המשימה, הצוות ללא ספק יתבקש לבצע משימות, לדוגמה חילוץ והצלה או מעקב, בסביבות חדשות אותן מעולם לא ראו.

"במצבים כאלו, בני אדם טובים להפליא בהשלכת האימונים שעברו על הסביבה החדשה, בעוד סוכנים בעלי בינה מלאכותית עכשווית אינם טובים בכך".

כמו שנכתב באתר army-technology.com, החוקרים הדגימו את הצלחת ה-TAMER העמוק במשחק באולינג של אטארי. תוך 15 דקות של משוב אנושי הסוכן יכול היה לבצע את הפעולה הנדרשת ממנו טוב יותר מהמדריך האנושי – משימה שכבר הוכחה כקשה אפילו לשיטות חדשניות ביותר של בינה מלאכותית.

החוקרים חוזים שה-TAMER העמוק יהיה הצעד הראשון בקו מחקרי שיבחן עוד שיתופי פעולה אנושיים-אוטונומיים בצבא, כשהמטרה האולטימטיבית היא סוכנים אוטונומיים  שיוכלו ללמוד בבטיחות ובמהירות מחברי הצוות האנושיים שלהם במגוון רחב של תנאי סביבה.