התקדמות ואתגרים חדשים בזיהוי דיפ-פייק

Image by Unsplash

This post is also available in: English (אנגלית)

ככל שהבינה המלאכותית (AI) ממשיכה להתקדם, ההבחנה בין תוכן אמיתי לבין תוכן שנוצר על ידי בינה מלאכותית הופכת לקשה יותר ויותר. לאתגר זה יכולות להיות השלכות משמעותיות, כגון אי היכולת לקבוע אם ראיות מסוימות הן אמיתיות או לא. מחקר חדש של אוניברסיטת קרנגי מלון ואקול סנטרלה נאנטז מטפל בבעיה זו על ידי בחינת המגבלות של זיהוי עמוק בצלילים סביבתיים.

החוקרים פיתחו רשת עצבית עמוקה שנועדה לסווג באופן אוטומטי צלילים סביבתיים בקטעי סאונד (כל מה שאינו דיבור או מוזיקה) כאמיתיים או ככאלו שנוצרו על ידי בינה מלאכותית. ממצאיהם הוצגו ב-27 באוגוסט 2024 בכנס האירופי ה-32 לעיבוד אותות (EUSIPCO 2024) בליון, צרפת, במאמר שכותרתו "Detection of Deepfake Environmental Audio".

על פי TechXplore, הגלאי מזהה כיום שבע קטגוריות של צלילים סביבתיים והפגין דיוק גבוה במהלך הבדיקה, עם כ-100 שגיאות בלבד מתוך כ-6,000 קטעי קול. השגיאות חולקו לשני סוגים: הגלאי בטעות תייג צלילים שנוצרו על ידי בינה מלאכותית כצלילים אמיתיים או אמיתיים כצלילים שנוצרו על ידי בינה מלאכותית.

במחקר השתתפו 20 משתתפים שהקשיבו לאותם צלילים שזוהו באופן שגוי על ידי הגלאי, והמשתתפים התבקשו להבחין בין צלילים אמיתיים לצלילים שנוצרו על ידי בינה מלאכותית.
התוצאות הראו כי בני אדם דייקו רק ב -50% בזיהוי הצלילים המזויפים שהגלאי סיווג כאמיתיים, דבר המצביע על כך שלצלילים אלה יש מאפיינים עדינים שגם הגלאי וגם המשתתפים התקשו לזהות. לעומת זאת, המשתתפים זיהו נכון צלילים אמיתיים שתויגו כמזויפים על ידי הגלאי כ -71% מהזמן, מה שמעיד על רמז אפשרי בקולות אלה שבני אדם יכולים לזהות, אשר הגלאי הנוכחי אינו מזהה.

לורי הלר, פרופסור לפסיכולוגיה באוניברסיטת קרנגי מלון, הסיקה שאם ניתן לזהות את הסימן הזה, הוא יכול לשפר את הדיוק של גלאי קול שנוצר על ידי כבינה מלאכותית. המחקר מצביע על הפוטנציאל לפיתוח כלים מתוחכמים יותר לזיהוי בינה מלאכותית המסוגלים לנתח צלילים של דיבור וצלילים סביבתיים. הלר הדגישה את החשיבות של להישאר "לפני" טכנולוגיות AI המתקדמות במהירות, והזהירה כי עתיד שבו תוכן שנוצר על ידי בינה מלאכותית אינו יכול להיות מובדל מתוכן אותנטי יכול להוביל לאתגרים חברתיים משמעותיים.