This post is also available in:
English (אנגלית)
מזה זמן רב שבינה מלאכותית מצטיינת במשחקים ובסימולציות פשוטות, אך רוב המערכות עדיין נשענות על מיליוני ניסיונות וטעויות כדי ללמוד. גישה זו, אף שהיא יעילה בסביבות וירטואליות, אינה מעשית עבור רובוטים בעולם האמיתי – שעלולים להישחק או להינזק במהלך האימון.
חוקרים מ־Google DeepMind הציגו כעת את Dreamer 4 – סוכן בינה מלאכותית העוקף את המגבלה הזו באמצעות למידה בתוך מודל עולם (world model); סימולציה וירטואלית הלוכדת הן את המראה החזותי והן את הדינמיקה הפיזיקלית של הסביבה.
Dreamer 4 היא המערכת הראשונה שהצליחה להשלים אחת מהמטרות המורכבות ביותר במשחק Minecraft – השגת יהלומים – מבלי לשחק במשחק עצמו אפילו פעם אחת. במקום זאת, המודל אומן כולו על סמך סרטוני משחק מוקלטים.
המערכת למדה לדמיין כיצד העולם של Minecraft מתנהג, החל בכריתת עצים ועד ליצירת כלי עבודה, והשתמשה במודל הפנימי הזה כדי לתכנן פעולות לפי סדר הגיוני, בדומה לאופן שבו אדם חושב לפני שפועל.
על פי דיווח של TechXplore, המודל מבוסס על ארכיטקטורה מסוג Transformer, המתוכננת לחזות פריימים עתידיים, פעולות ותגמולים. באמצעות שיטה הנקראת Shortcut Forcing, המערכת האיצה את יצירת הווידאו ואת תהליך הלמידה בחיזוק (reinforcement learning) פי 25 ויותר לעומת מודלים מבוססי וידאו רגילים.
לאחר האימון, Dreamer 4 הצליחה לדמות במדויק פעולות כמו כרייה, יצירה (crafting) או שימוש בפריטים במשחק בזמן אמת ובאמצעות יחידת GPU אחת בלבד.
בניגוד למודלים גנרטיביים כמו Sora או Veo, היוצרים וידאו מטקסט אך אינם אינטראקטיביים, המודל של Dreamer 4 הוא דינמי. כלומר, הוא מאפשר לסוכני הבינה המלאכותית לחקור, לקבל החלטות וללמוד בתוך סביבות מדומות. יכולת זו עשויה להיות בעלת ערך רב במיוחד בתחום הרובוטיקה, שבו אימון בעולם האמיתי כרוך בזמן, עלויות ושחיקה.
באמצעות למידה מנתוני פעולה (action data) מוגבלים וממאגרי וידאו פסיביים רחבים, הסוכנים יכולים לבצע הכללות מצפייה בלבד, במקום להסתמך על ניסויים פיזיים אינסופיים.
המחקר מציע מסלול חדש לעבר למידה מבוססת דמיון בקנה מידה רחב, שבו סוכנים חכמים מפתחים את כישוריהם בעולם וירטואלי ריאליסטי, עוד לפני הפעלתם בעולם הפיזי. גרסאות עתידיות של Dreamer צפויות לשלב זיכרון ארוך טווח והבנת שפה, מה שיאפשר למערכות לא רק לדמות את המציאות אלא גם לשתף פעולה עם בני אדם במגוון רחב של משימות.
המחקר פורסם כאן.

























