דיפ מיינד משיקה מודל בינה מלאכותית שיודע ללמד את עצמו

דיפ מיינד משיקה מודל בינה מלאכותית שיודע ללמד את עצמו

image provided by pixabay

This post is also available in: enEnglish (אנגלית)

כיום רובוטים יכולים לבצע מגוון רחב של משימות, כל עוד אומנו בעזרת נתונים מהעולם האמיתי. שאלה שעולה בנושא היא מה אם הם היו יכולים לעקוף את השלב הזה? התוצאה כנראה תהיה עוד הרבה רובוטים למטרות כלליות שיפותחו בקצב גבוה יותר.
חברת דיפ מיינד (DeepMind) שנרכשה ע"י גוגל השיקה מודל AI המסוגל לשפר את עצמו הנקרא "RoboCat". מודל זה עשוי להיות המפתח למכונות שמסוגלות לייצר נתוני אימון חדשים בעצמן, ובכך לשפר את הטכניקה שלהן ללא מעורבות רבה של בני אדם. כך נכתב בבלוג של החברה.
החוקרים כתבו בפרסום: "RoboCat לומד הרבה יותר מהר מכל מודל עדכני אחר. הוא יכול ללמוד משימה חדשה בעזרת 100 הדגמות בלבד כי הוא מסתמך על מאגר נתונים גדול ומגוון. יכולת זאת תעזור להאיץ את המחקר הרובוטי, משום שהיא מורידה את הצורך באימון בפיקוח אנושי, וזהו צעד חשוב לקראת יצירה של רובוטים לשימוש כללי".
הם המשיכו והסבירו שהמודל החדש מבוסס על המודל הרב-מודאלי של דיפמיינד שנקרא "Gato" ("חתול" בספרדית), המסוגל לעבד שפה, תמונות ופעולות בסביבה אמיתית ומדומה.

לפי אתר החדשות Interesting Engineering, החוקרים השתמשו בארכיטקטורה של Gato המגיעה עם מערך אימונים גדול של רצפים של תמונות ופעולות של זרועות רובוטיות שונות הפותרות מאות משימות שונות.
לאחר מכן הם אימנו את RoboCat ללמוד משימות חדשות ע"י מעקב אחר חמישה שלבים:
1. לאסוף בין 100 ל-1,000 הדגמות של משימה או רובוט חדש, בשימוש זרוע רובוטית או בשליטה של בן אדם.
2. לכוונן את RoboCat על המשימה/הזרוע החדשה, וליצור סוכן ספין-אוף מתמחה.
3. סוכן הספין-אוף הזה מתאמן על המטלה/זרוע החדשה 10,000 פעמים בממוצע, ומייצר עוד נתוני אימון.
4. לשלב את נתוני ההדגמה והנתונים שנוצרו באופן עצמי לתוך סט נתוני האימון הקיים של ה-RoboCat.
5. לאמן גרסה חדשה של RoboCat על סט נתוני האימון החדשים.
שיטת האימון החדשה והמגוונת הזאת לימדה את מודל הבינה המלאכותית לתפעל זרועות רובוטיות שונות תוך מספר שעות בלבד. למרות שלא אימנו אותו להשתמש בזרועות עם שתי אצבעות אוחזות, RoboCat הצליח להסתגל לזרוע מתוחכמת יותר עם שלוש אצבעות אוחזות ועם פי שתיים קלטים ניתנים לשינוי (controllable inputs).
ככל שהרובוט למד יותר משימות חדשות, יכולת הלמידה שלו השתפרה. גרסאות מוקדמות של RoboCat הצליחו להתמודד רק עם 36% מהמשימות החדשות שהוצבו לפניהם, בעוד המודל החדש והמעודכן שאומן באמצעות מגוון משימות גדול יותר, הכפיל את אחוזי ההצלחה שלו על אותן משימות.
מידע זה סופק ע"י אתר Interesting Engineering.