אב טיפוס חדש שפותח על ידי חוקרים מאוניברסיטת וושינגטון יכול לעצב מחדש את האופן שבו אנשים מתנהלים בסביבות רב-לשוניות. המערכת, המכונה Spatial Speech Translation, מאפשרת תרגום בזמן אמת של מספר דוברים בו-זמנית, תוך שמירה על מאפייני הקול הייחודיים והמיקום המרחבי של כל אדם.
שלא כמו כלי תרגום קיימים שמניחים שיש דובר אחד בכל פעם או מסתמכים על פלט קול רובוטי, גנרי, פתרון זה מאפשר למשתמשים לחוות שיחות מתורגמות באופן שמרגיש יותר טבעי. המערכת, שנבנתה באמצעות אוזניות מבטל רעשים זמינות מסחרית המצוידות במיקרופונים חיצוניים, מבודדת את קולות הדוברים, קובעת את הכיוון שלהם בחלל, מתרגמת את הדיבור, ומשמיעה אותו בחזרה למשתמש עם עיכוב קצר של 2–4 שניות בלבד, על פי TechXplore.
החידוש העיקרי טמון ביכולת של האלגוריתם לסרוק 360 מעלות ברציפות סביב המאזין, לזהות כמה דוברים נוכחים ולעקוב אחריהם בזמן שהם נעים. זה מאפשר למערכת להתעדכן בזמן אמת, גם כאשר המשתתפים מחליפים עמדות או מסובבים את הראש. באופן משמעותי, כל קול מתורגם שומר על גוון הקול והמיקום הכיווני של הדובר המקורי, ומציע חוויית האזנה סוחפת ביותר.
תהליך התרגום מתרחש כולו במכשיר, ללא שימוש בשירותים מבוססי ענן, על מנת למנוע סיכוני פרטיות הקשורים בהעברת שמע לשרתים חיצוניים, כגון שכפול קול.
בדיקות ראשוניות במגוון של סביבות פנימיות וחיצוניות סייעו לחוקרים לחדד את הגדרות המערכת בהתבסס על משוב המשתמשים. בעוד שהמערכת הנוכחית תומכת בדיבור יומיומי בשפות כמו ספרדית, צרפתית וגרמנית, החוקרים מצפים שהגרסאות העתידיות יתרחבו לעשרות שפות נוספות ויכללו מהירות משופרת. למרות שהיא עדיין לא יודעת להתמודד בטרמינולוגיה מיוחדת, היישומים הפוטנציאליים כוללים תיירות, שיתוף פעולה בינלאומי ושירותים ציבוריים.
עם האינטראקציה הרב-לשונית ההופכת נפוצה יותר בעולם הגלובלי של היום, חדשנות לבישה זו מביאה תרגום בזמן אמת עם מודעות מרחבית, ועושה צעד אחד קדימה לקראת שימוש יומיומי.