This post is also available in: enEnglish (אנגלית)

כיום ניתן ליצור הקלטות מזויפות באמצעות בינה מלאכותית (הנקראות גם הקלטות deepfake) בלחיצת כפתור, מה שהופך את השימוש בהן להרבה יותר מסוכן. מחקר חדש של תלמידים מבית הספר למידע באוניברסיטת מישיגן מקל על קביעת האותנטיות של קליפ שמע.

רומיט ברואה, גוטאם קורמה ושרה ברינגטון הציגו לראשונה את המחקר שלהם על שיבוט קול כפרויקט הסופי לתואר השני שלהם. הצוות עבד עם פרופ' האני פריד ובדק טכניקות שונות להבחנה בין קול אמיתי לקול משובט שנועד להתחזות לאדם מסוים.

על פי Techxplore, הצוות ניתח לראשונה דגימות אודיו של קולות אמיתיים ומזויפים על ידי התבוננות בתכונות תפיסתיות או דפוסים שניתן לזהות באופן חזותי. בעזרת הגישה הזו הם התמקדו בהתבוננות בגלי אודיו והבחינו כי לקולות אנושיים אמיתיים יש לעתים קרובות יותר הפסקות וגיוון בווליום לאורך הקליפ, מכיוון שאנשים אמיתיים נוטים להשתמש במילות "מילוי" ולנוע סביב המיקרופון בזמן ההקלטה.

הצוות ניתח את התכונות הללו והצליח להצביע על הפסקות ומשרעת (עקביות ווריאציה בקול) כגורמים מרכזיים שיש לחפש כאשר מנסים לקבוע את האותנטיות של הקול. עם זאת, הם גם מצאו כי שיטה זו נוטה להניב תוצאות פחות מדויקות.

לאחר מכן הצוות ניסה גישה שונה ומפורטת יותר, והשתמש בחבילה מוכנה לניתוח גלי אודיו אשר מחלצת מעל ל-6,000 תכונות שונות ואז בוחרת את ה-20 החשובות ביותר. הצוות ניתח את התכונות שחולצו והשווה אותן לקליפי שמע אחרים, ובכך יצר שיטה מדויקת יותר.

אבל התוצאות המדויקות ביותר נוצרו על ידי שימוש בתכונות הנלמדות שלהם, אשר כרוכות בהכשרת מודל למידה עמוקה. הצוות עשה זאת על ידי הזנת האודיו הגולמי למודל שאז מעבד ומחלץ ייצוגים רב-ממדיים הנקראים שיבוצים (embeddings). לאחר שנוצר, המודל משתמש בשיבוצים אלה כדי להבחין בין אודיו אמיתי וסינתטי.

השיטה השלישית הזו תמיד המדויקת ביותר, ורשמה 0% שגיאות כשנבחנה בתנאי מעבדה. עם זאת, שיטה זו עשויה להיות קשה להבנה ללא הקשר מתאים.

הצוות טוען כי מחקר זה יוכל לטפל בחששות הגוברים לגבי שימוש בשיבוט קולי ו-deepfakes למטרות זדוניות. ברינגטון הסביר: "שיבוט קולי הוא אחד המקרים הראשונים שבהם אנחנו עדים ל- deepfakesעם תועלת בעולם האמיתי, בין אם זה כדי לעקוף את האימות הביומטרי של הבנק או להתקשר לבן משפחה ולבקש כסף. כבר לא רק מנהיגים וסלבריטאים בעולם נמצאים בסיכון, אלא גם אנשים רגילים. עבודה זו מהווה צעד משמעותי בפיתוח והערכה של מערכות זיהוי באופן חזק ומדרגי עבור הציבור הרחב".