This post is also available in:
English (אנגלית)
חוקרים מאוניברסיטת טקסס באוסטין פיתחו שיטה פורצת דרך המשתמשת בבינה מלאכותית גנראטיבית כדי להמיר צלילים מהקלטות אודיו לתמונות רחוב. המחקר שלהם, שפורסם בכתב העת Computers, Environment and Urban Systems, מראה כי בינה מלאכותית יכולה לשכפל את היכולת האנושית לחבר תפיסות קוליות ו-ויזואליות של הסביבה, ולספק ייצוג חזותי חי מצלילים בלבד.
על פי TechXplore, הצוות הכשיר מודל AI על ידי הצמדת קטעי אודיו עם תמונות מקבילות של סביבות רחוב עירוניות וכפריות ברחבי צפון אמריקה, אסיה ואירופה. מערכי נתונים אלה, שכללו דגימות אודיו של 10 שניות ותמונות סטילס של מיקומים שונים, אפשרו לבינה המלאכותית ללמוד כיצד מידע קולי מכיל רמזים חזותיים. על ידי הזנת קלט אודיו חדש למודל, הוא יכול היה ליצור תמונות ברזולוציה גבוהה שתואמות באופן מדוייק לסצנות בעולם האמיתי.
יוהאו קאנג, עוזר פרופסור לגיאוגרפיה ומחבר משותף של המחקר הסביר: "המחקר שלנו מצא כי סביבות אקוסטיות מכילות מספיק רמזים חזותיים כדי ליצור תמונות רחוב מוכרות מאוד המתארות במדויק מקומות שונים". התוצאות היו מרשימות, עם תמונות שנוצרו על ידי AI המציגות התאמה חזקה עם תמונות מהעולם האמיתי. המשתתפים האנושיים הצליחו להתאים נכונה 80% של התמונות שנוצרו עם דגימות השמע המתאימות שלהם, מה שאימת עוד יותר את הדיוק של מודל הבינה המלאכותית.
לא זו בלבד שהבינה המלאכותית שיכפלה את הפרופורציות של בניינים, שמיים וצמחייה, אלא שהיא גם קלטה פרטים עדינים כמו סגנונות אדריכליים, מרחקי עצמים ותנאי תאורה. המחקר גם הדגיש כיצד צלילים מסוימים, כמו צלילי מכוניות או ציוצי חרקים ליליים, יכולים לחשוף מידע לגבי הזמן ביום, ולהוסיף עומק ליכולת של הבינה המלאכותית לדמות תנאים סביבתיים.
קאנג, שמחקריו מתמקדים בהצטלבות של בינה מלאכותית גיאו-מרחבית ואינטראקציה בין בני אדם לסביבה, הדגיש את הפוטנציאל שבינה מלאכותית תגיע מעבר לזיהוי הסביבה הפיזית ותעשיר את ההבנה שלנו לגבי האופן שבו אנו חווים מקומות באופן סובייקטיבי. עבודה זו מצביעה על כך שמכונות עשויות להציע יום אחד גישה רב-חושית לפרשנות סביבה, המגשרת על הפער בין מה שאנו שומעים לבין מה שאנו רואים.