This post is also available in:
English (אנגלית)
מחקר אקדמי חדש מאוניברסיטת קווין מארי בלונדון מצא כי קולות שנוצרו באמצעות בינה מלאכותית, ובמיוחד כאלו שנוצרו בעזרת כלים לשכפול קולי, הפכו כעת לכמעט בלתי ניתנים להבחנה מדיבור אנושי אמיתי. המחקר, שפורסם בכתב העת המדעי PLOS One, מצביע על כך שטכנולוגיית ייצור קול באופן סינתטי הגיעה לנקודת מפנה קריטית מבחינת רמת המציאותיות שלה, מה שמעורר שאלות מהותיות בנוגע לאבטחה, אתיקה ותקשורת דיגיטלית.
החוקרים בחנו כיצד אנשים תופסים מגוון דגימות קול: קול אנושי טבעי, קולות משוכפלים המבוססים על דוברים אמיתיים, וקולות סינתטיים גנריים שנוצרו ע"י בינה מלאכותית ואינם משויכים לאדם מסוים. המשתתפים התבקשו להעריך עד כמה הקולות נשמעים מציאותיים, וכן עד כמה הם נשמעים דומיננטיים או אמינים, כך על פי TechXplore.
תוצאות המחקר הראו כי קולות משוכפלים שנוצרו על סמך מספר דקות בלבד של דגימת קול מקורית דורגו לעיתים קרובות כריאליסטיים באותה מידה כמו קולות אנושיים אמיתיים. באופן מפתיע, הן הקולות המשוכפלים והן הקולות הסינתטיים הגנריים נתפסו כדומיננטיים יותר מהקולות האנושיים, וחלקם אף דורגו כאמינים יותר.
למרות חששות הולכים וגוברים מתופעה המכונה "היפר-ריאליזם" במדיה שנוצרת על ידי בינה מלאכותית (כלומר, כאשר תוכן סינתטי נתפס כאותנטי יותר מתוכן אמיתי), המחקר לא מצא ראיות לתופעה זו בקטעי השמע שנבדקו. עם זאת, העובדה שהמאזינים לא הצליחו להבחין בעקביות בין קולות אמיתיים למשוכפלים מצביעה על התפתחות משמעותית בתחום.
אחת המסקנות המרכזיות מהמחקר היא כמה קל לשכפל קולות. החוקרים הצליחו לייצר חיקויים קוליים משכנעים של אנשים, תוך שימוש בתוכנות זמינות לציבור, ובהשקעה מינימלית של זמן, ידע או משאבים. הנגישות המהירה והזולה הזו ממחישה עד כמה הטכנולוגיה התקדמה, ועד כמה מהר היא הופכת לנפוצה.
לצד הפוטנציאל החיובי לשימושים בתחומי הנגשה, חינוך ותקשורת, המחקר גם מדגיש סיכונים אפשריים. החל מהונאה, דרך התחזות ועד להפצת דיסאינפורמציה, ההשלכות על מערכות אבטחה קולית ועל אמון הציבור הן משמעותיות.
ממצאי המחקר מחזקים את הצורך בפיתוח כלים מתקדמים לזיהוי דיבור סינתטי, וכן בעדכון המסגרות הרגולטוריות לניהול השימוש בטכנולוגיה זו, הן במגזר הציבורי והן בפרטי.