פיתוח חדש יביא למהפכה בניתוח וידאו

פיתוח חדש יביא למהפכה בניתוח וידאו

This post is also available in: enEnglish (אנגלית)

טכנולוגיית ניתוח התמונות תידרש להשתפר בהבנת הכוונות האנושיות כדי שניתן יהיה ליישם אותה במגוון רחב יותר של תפקידים. מחשבים מתקשים להבין את הצעד הבא של האדם שלפניהם על סמך התנהגותו. קבוצת חוקרים פיתחה כלי איתור שמסוגל לחזות בהצלחה איפה, בסרט הווידאו, תתרחש פעולה אנושית, וזאת כמעט בזמן אמת.

החוקר הראשי, הונגיואן זו, מדען מחשבים במכון לחקר תקשורת המידע בסינגפור A*STOR, טוען כי מכוניות ללא נהג חייבות להיות מסוגלות לאתר שוטרים ולפרש את תנועותיהם (כמו הרמת יד לצורך עצירת התנועה) במהירות ובאופן מדויק, כדי שנהיגתן תהיה בטיחותית.

ניתן לאמן מערכות אוטונומיות לזהות פעולות חשודות כמו אלימות, גניבה או הטלת חפצים מסוכנים, ולהזעיק את צוותי האבטחה.

מחשבים יכולים לאתר נכונה עצמים בתמונות סטטיות הודות לטכניקות של למידה עמוקה, המיישמות רשתות עצביות מלאכותיות כדי לעבד מידע חזותי מורכב. אבל סרטי וידאו עם עצמים נעים מציבים אתגר קשה יותר. "הבנת הפעילות האנושית בסרטי וידאו היא הכרחית כדי לבנות מכונות קטנות וידידותיות יותר", אומר זו.

השיטות הקיימות לאיתור פעולה אנושית פוטנציאלית בווידאו אינן משתמשות במסגרות של למידה עמוקה, והן איטיות ונוטות לטעויות.

כדי לפתור את הבעיה, מאתר בשם YoTube פיתחה הקבוצה משלב שני סוגים של רשתות עצביות במקביל: רשת עצבית סטטית שכבר הוכיחה את רמת הדיוק שלה בעיבוד תמונות סטילס, וכן רשת עצבית חוזרת, המשמשת בדרך כלל לעיבוד נתונים משתנים, לצורך זיהוי דיבור. "השיטה שלנו היא הראשונה שמאפשרת איתור ומעקב יחד באמצעי אחד של למידה עמוקה", אומר זו.

הצוות בחן את אמצעי האיתור החדש שפיתח על יותר מ-3000 סרטי וידאו המשמשים בשיגרה בניסויי ראיית מחשב. הם מדווחים כי ביצועי המערכת שלהם עברו את אלה של אמצעי האיתור הקיימים בבחירה נכונה של פעולות אנושיות פוטנציאליות בכ-20% עבור סרטי וידאו שמראים פעילויות יומיומיות וב-6% עבור סרטי ספורט, כך מדווח האתר של מכון A*STAR.

המאתר אמנם מבצע טעויות לפעמים, לדוגמא כשהדמויות המצולמים בווידאו הן קטנות, או אם מופיעים אנשים רבים ברקע. למרות זאת, לדברי זו, "הוכחנו כי אנחנו מסוגלים לאתר את רוב תחומי הפעילות האנושית הפוטנציאליים כמעט בזמן אמת".